Elasticsearch从入门到精通

1、Elasticsearch简介

Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎，无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。
但是，Lucene只是一个库。想要发挥其强大的作用，你需使用Java并要将其集成到你的应用中。Lucene非常复杂，你需要深入的了解检索相关知识来理解它是如何工作的。
Elasticsearch也是使用Java编写并使用Lucene来建立索引并实现搜索功能，但是它的目的是通过简单连贯的RESTful API让全文搜索变得简单并隐藏Lucene的复杂性。
不过，Elasticsearch不仅仅是Lucene和全文搜索引擎，它还提供：

分布式的实时文件存储，每个字段都被索引并可被搜索
实时分析的分布式搜索引擎
可以扩展到上百台服务器，处理PB级结构化或非结构化数据

而且，所有的这些功能被集成到一台服务器，你的应用可以通过简单的RESTful API、各种语言的客户端甚至命令行与之交互。上手Elasticsearch非常简单，它提供了许多合理的缺省值，并对初学者隐藏了复杂的搜索引擎理论。它开箱即用（安装即可使用），只需很少的学习既可在生产环境中使用。Elasticsearch在Apache 2 license下许可使用，可以免费下载、使用和修改。
随着知识的积累，你可以根据不同的问题领域定制Elasticsearch的高级特性，这一切都是可配置的，并且配置非常灵活

2、Elasticsearch在liunx系统安装

Elasticsearch和jdk的匹配

备注：Elasticsearch需要Java虚拟机的支持

下载地址：

Download Elasticsearch | Elastic

查询jdk的版本

解压缩

[root@iZbp1gjon8qil2s26unji4Z elasticsearch]# tar -zxvf elasticsearch-6.8.12.tar.gz

[root@iZbp1gjon8qil2s26unji4Z bin]# ./elasticsearch

报错

org.elasticsearch.bootstrap.StartupException: java.lang.RuntimeException: can not run elasticsearch as root
   at org.elasticsearch.bootstrap.Elasticsearch.init(Elasticsearch.java:163) ~[elasticsearch-6.8.12.jar:6.8.12]
   at org.elasticsearch.bootstrap.Elasticsearch.execute(Elasticsearch.java:150) ~[elasticsearch-6.8.12.jar:6.8.12]
   at org.elasticsearch.cli.EnvironmentAwareCommand.execute(EnvironmentAwareCommand.java:86) ~[elasticsearch-6.8.12.jar:6.8.12]
   at org.elasticsearch.cli.Command.mainWithoutErrorHandling(Command.java:124) ~

解决：

创建一个独立的用户，比如elk来启动elasticsearch，不用root用户启动

[root@iZbp1gjon8qil2s26unji4Z bin]# ./elasticsearch

[root@iZbp1gjon8qil2s26unji4Z elasticsearch]# adduser els
[root@iZbp1gjon8qil2s26unji4Z elasticsearch]# chown -R els:els elasticsearch-6.8.12

[root@iZbp1gjon8qil2s26unji4Z elasticsearch]# su els
[els@iZbp1gjon8qil2s26unji4Z elasticsearch]$ cd elasticsearch-6.8.12/
启动

[els@iZbp1gjon8qil2s26unji4Z bin]$ nohup ./elasticsearch >/dev/null 2>&1 &
[els@iZbp1gjon8qil2s26unji4Z bin]$ ps -ef|grep elasticsearch

3、Elasticsearch的核心概念

全文搜索(Full-text Search)

全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。
在全文搜索的世界中，存在着几个庞大的帝国，也就是主流工具，主要有：

Apache Lucene
Elasticsearch
Solr
Ferret

倒排索引（Inverted Index）

该索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。Elasticsearch能够实现快速、高效的搜索功能，正是基于倒排索引原理。

节点 & 集群（Node & Cluster）

Elasticsearch 本质上是一个分布式数据库，允许多台服务器协同工作，每台服务器可以运行多个Elasticsearch实例。单个Elasticsearch实例称为一个节点（Node），一组节点构成一个集群（Cluster）。

索引（Index）

Elasticsearch 数据管理的顶层单位就叫做 Index（索引），相当于关系型数据库里的数据库的概念。另外，每个Index的名字必须是小写。

文档（Document）

Index里面单条的记录称为 Document（文档）。许多条 Document 构成了一个 Index。Document 使用 JSON 格式表示。同一个 Index 里面的 Document，不要求有相同的结构（scheme），但是最好保持相同，这样有利于提高搜索效率。

类型（Type）

Document 可以分组，比如employee这个 Index 里面，可以按部门分组，也可以按职级分组。这种分组就叫做 Type，它是虚拟的逻辑分组，用来过滤 Document，类似关系型数据库中的数据表。
不同的 Type 应该有相似的结构（Schema），性质完全不同的数据（比如 products 和 logs）应该存成两个 Index，而不是一个 Index 里面的两个 Type（虽然可以做到）。

文档元数据（Document metadata）

文档元数据为_index, _type, _id, 这三者可以唯一表示一个文档，_index表示文档在哪存放，_type表示文档的对象类别，_id为文档的唯一标识。

字段（Fields）

每个Document都类似一个JSON结构，它包含了许多字段，每个字段都有其对应的值，多个字段组成了一个 Document，可以类比关系型数据库数据表中的字段。
在 Elasticsearch 中，文档（Document）归属于一种类型（Type），而这些类型存在于索引（Index）中，下图展示了Elasticsearch与传统关系型数据库的类比：

4、Elasticsearch架构图与介绍

Gateway代表ElasticSearch索引的持久化存储方式。在Gateway中，ElasticSearch默认先把索引存储在内存中，然后当内存满的时候，再持久化到Gateway里。当ES集群关闭或重启的时候，它就会从Gateway里去读取索引数据。比如LocalFileSystem和HDFS、AS3等。

DistributedLucene Directory，它是Lucene里的一些列索引文件组成的目录。它负责管理这些索引文件。包括数据的读取、写入，以及索引的添加和合并等。River，代表是数据源。是以插件的形式存在于ElasticSearch中。　

Mapping，映射的意思，非常类似于静态语言中的数据类型。比如我们声明一个int类型的变量，那以后这个变量只能存储int类型的数据。比如我们声明一个double类型的mapping字段，则只能存储double类型的数据。Mapping不仅是告诉ElasticSearch，哪个字段是哪种类型。还能告诉ElasticSearch如何来索引数据，以及数据是否被索引到等。

Index Moudle，Elasticsearch里的索引概念是名词而不是动词，在elasticsearch里它支持多个索引。优点类似于关系数据库里面每一个服务器可以支持多个数据库是一个道理，在每一索引下面又可以支持多种类型，这又类似于关系数据库里面的一个数据库可以有多张表一样。但是本质上和关系数据库还是有很大的区别，我们这里暂时可以这么理解Search Module，搜索查询模块。Disvcovery，主要是负责集群的master节点发现。比如某个节点突然离开或进来的情况，进行一个分片重新分片等。这里有个发现机制。发现机制默认的实现方式是单播和多播的形式，即Zen，同时也支持点对点的实现。另外一种是以插件的形式，即EC2。

Scripting，即脚本语言。包括很多，这里不多赘述。如mvel、js、python等。Transport，代表ElasticSearch内部节点，代表跟集群的客户端交互。包括Thrift、Memcached、Http等协议RESTful Style API，通过RESTful方式来实现API编程。3rd plugins，代表第三方插件。Java(Netty)，是开发框架。JMX，是监控。