ElasticSearch是一个高可用开源全文检索和剖析组件。提供储存服务,搜索服务,大数据准实时剖析等。通常用于提供一些提供复杂搜索的应用。

ElasticSearch提供了一套基于restful风格的全文检索服务组件。前身是compasslinux下查看java版本,直至2010被一家公司接管进行维护,开始商业化,并提供了ElasticSearch一些相关的产品linux下查看java版本,包括你们比较熟悉的kibana、logstash以及ElasticSearch的一些组件,例如安全组件shield。当前最新的ElasticSearch版本为5.1.1,比较应用广泛的为2.X,直至2016-12推出了5.x版本,将版本号调为5.X。这是为了和kibana和logstash等产品版本号进行统一ElasticSearch。我们将从以下几个问题快速了解一些ElasticSearch索引服务器。

一、ES是怎么形成背景1、大规模数据怎么检索?

系统数据量上了10亿、100亿条的时侯,我们在做系统构架的时侯一般会从以下角度去考虑问题:

1)用哪些数据库好?(mysql、sybase、oracle、达梦、神通、mongodb、hbase…)

2)怎样解决单点故障;(lvs、F5、A10、Zookeep、MQ)

3)怎样保证数据安全性;(热备、冷备、异地多活)

4)怎样解决检索困局;(数据库代理中间件:mysql-proxy、Cobar、MaxScale等;)

5)怎样解决统计剖析问题;(离线、近实时)

2、传统数据库的应对解决方案

对于关系型数据,我们一般采用以下或类似构架去解决查询困局和写入困局:

1)通过主从备份解决数据安全性问题;

2)通过数据库代理中间件脉搏检测,解决单点故障问题;

3)通过代理中间件将查询句子分发到各个slave节点进行查询,并汇总结果

3、非关系型数据库的解决方案

对于Nosql数据库,基本原理类似:

1)通过副本备份保证数据安全性;

2)通过节点竞选机制解决单点问题;

3)先从配置库检索分片信息,之后将恳求分发到各个节点,最后由路由节点合并汇总结果

4、另辟蹊径完全把数据装入显存如何样?

我们晓得,完全把数据放到显存中是不可靠的,实际上也不太现实,当我们的数据达到PB级别时,根据每位节点96G显存估算,在显存完全装满的数据情况下,我们须要的机器是:1PB=1024T=1048576G节点数=1048576/96=10922个实际上,考虑到数据备份,节点数常常在2.5万台左右。成本巨大决定了其不现实!

从后面讨论我们了解到,把数据放到显存也好,不置于显存也好linux文本编辑器,都不能完完全全解决问题。全部放到显存速率问题是解决了,但成本问题上来了。为解决以上问题,从源头着手剖析,一般会从以下形式来找寻方式:

1、存储数据时按有序储存;

2、将数据和索引分离;

3、压缩数据;这就引出了Elasticsearch

二、ES基础知识1、ES主要解决问题

1)检索相关数据;2)返回统计结果;3)速率要快;

2、Lucene与ES关系

1)Lucene只是一个库。想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是,Lucene十分复杂,你须要深入了解检索的相关知识来理解它是怎样工作的。

2)Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,而且它的目的是通过简单的RESTfulAPI来隐藏Lucene的复杂性,进而让全文搜索显得简单。

3、ES工作原理

当ElasticSearch的节点启动后,它会借助多播(multicast)(或则时隙,假如用户修改了配置)找寻集群中的其它节点,并与之完善联接。这个过程如右图所示:

4、ES的基本概念

1)近实时查询(NearRealTime)

Elasticsearch是一个能提供近实时查询的搜索服务引擎,这意味着从索引文档到真正可搜索之间会有一个轻微的延后(大约在1秒内)。

2)节点和集群

节点(node)是一个运行着的Elasticsearch实例,你可以觉得是单个服务器。集群(cluster)是一个或多个节点的集合,她们协同工作,共享数据并提供故障转移和扩充功能。集群由惟一名称标示,如.NETCore中的环境名称,推荐在不同的环境中使用例如Development,Production之类的名称布署开发。虽然节点和集群就是web开发中的常见概念而已,你们注意分辨即可。

3)文档

文档是可索引信息的基本单元,以JSON表示。你可以用其来定义单个产品信息或是职工信息。我们可以把文档理解为数据库文档中的行列数据。在索引/类型中,您可以储存任意数目的文档。文档有几个共同不可缺的属性,分别为_index,_type,_id,针对特定一个或一类文档进行操作时,必须指定这种属性。最后要提醒你们的是,即使文档数学上是留驻在索引中,但实际上文档必须索引/分配给索引中的类型。

4)索引

索引是具有个别相像特点的文档的集合,它和数据库中的索引概念并不非常相同。我们可以把索引理解为数据库文档中的数据库。事实上,我们的数据被储存和索引在分片(shards)中,索引只是一个把一个或多个分片分组在一起的逻辑空间。但是,这只是一些内部细节——我们的程序完全不用关心分片。

5)类型

在索引中,我们可以定义一个或多个类型。类型是索引的逻辑类别/分区redhat linux 9.0下载,其语义完全由开发者决定。一般,为具有一组公共数组的文档定义类型。诸如,假定开发者运行博客平台并将所有数据储存在一个索引中。在此索引中,我们可以为用户数据定义类型,为博客数据定义另一种类型,并为注释数据定义另一种类型。我们可以把索引理解成数据库文档中的表。

6)分片和复制

理论上,索引可以储存尽可能多的数据,并且这些情况下性能常常不太乐观,或则常见的c盘容量限制也不能允许。所以Elasticsearch提供了类似于MongoDB中的分片功能,该功能能将索引细分为多个分片。每位分片本身是一个功能完全和独立的”索引”,可以托管在集群中的任何节点上。

同样的,有分片技术来处理数据量下降快速的问题,就意味着须要复制技术来应对这些过程中(虽然不只是该过程,任何情况下都应当有安全意识)数据安全的问题。Elasticsearch容许您将索引分片的一个或多个副本转换为所谓的副本分片。复制技术为我们提供了数据的高可用性和搜索吞吐的扩充性。不过须要注意的是,副本分片从不分配在与从其复制的原始/主分片相同的节点上。

总而言之,每位索引可以分拆为多个分片。索引也可以复制为零(意味着没有副本)或更多次。一旦复制,每位索引将具有主分片(从索引复制的原始分片)和副本分片(主分片的副本)。开发者可以在创建索引时就为每位索引定义分片和副本的数目。创建索引后,可以随时动态修改副本数,但不能在此过程后旋即修改分片数。

三、ES的安装与服务启动1、下载ES的压缩包

Window系统下载zip版本,linux系统下载tar版本

将下载的zip解压到指定的c盘上

2、ES服务的目录结构

bin储存elasticSearch运行命令config储存配置文件lib储存elasticSearch运行依赖jar包modules储存elasticSearch模块plugins储存插件

3、ES服务的启动

指定ES安装目录下的bin下的elasticsearch.bat

启动日志信息如下:

4、访问ES服务

四、通过java去访问ES服务

1、搭建环境

创建Maven鞋厂,添加ES的顾客端座标

2、创建索引

Tagged:
Author

这篇优质的内容由TA贡献而来

刘遄

《Linux就该这么学》书籍作者,RHCA认证架构师,教育学(计算机专业硕士)。

发表回复