【原】干货 |《深入理解Elasticsearch》读书笔记

铭毅天下 2021-12-24

展开全文

题记

由于之前已经梳理过Elasticsearch基础概念且在项目中实战过Elasticsearch的增删改查、聚类、排序等相关操作，对ES算是有了一定的认知。

但是，仍然对于一些底层的原理认知模糊，特买来《深入理解Elasticsearch》过了一遍，将书中一些细节知识点结合官网文档梳理如下。

1——4章偏应用，跟着敲一遍代码基本就能理解原理。
5——9章偏理论一些。

第5章分布式索引架构

1、如何选择合适的分片和副本数？

目的：规划索引及配置，适应应用的变化。

正确认知：分片数索引创建后不可以修改，副本数索引创建后可以通过API随时修改。

多副本的缺点：额外副本占据了额外的存储空间，构建索引副本的开销也随之增大。

同时要注意：如果不创建副本，当主分片发生问题时，可能会造成数据的丢失。

配置参考：最理想的分片数量应该依赖于节点的数量。

参考公式：所需的最大节点数 = 分片数 *（副本数+1）

举例：你计划5个分片和1个副本，那么所需要的最大的节点数为：5*（1+1）=10个节点。

2、可不可以基于时间构建索引？

目的：选择感兴趣的索引上进行查询，历史索引（时间比较久）的定期删除。
正确操作方法：通过名称为logs_2017_01, logs_2017_02,…..logs_2017_12来构建索引。

第6章底层索引控制

1、什么是段？

Elasticsearch中的每个分片包含多个segment（段），每一个segment都是一个倒排索引；在查询的时，会把所有的segment查询结果汇总归并为最终的分片查询结果返回。

在创建索引的时候，ES会把文档信息写到内存bugffer中（为了安全，也一起写到translog），定时（可配置）把数据写到segment缓存小文件中，然后刷新查询，使刚写入的segment可查。

虽然写入的segment可查询，但是还没有持久化到磁盘上。因此，还是会存在丢失的可能性的。所以，ES会执行flush操作，把segment持久化到磁盘上并清除translog的数据（因为这个时候，数据已经写到磁盘上，不再需要了）。

参考：http:///RjKOMv1

2、什么是段合并？

由于自动刷新流程每秒会创建一个新的段，这样会导致短时间内的段数量暴增。而段数目太多会带来较大的麻烦。

1）消耗资源：每一个段都会消耗文件句柄、内存和cpu运行周期；
2）搜索变慢：每个搜索请求都必须轮流检查每个段；所以段越多，搜索也就越慢。

ES通过在后台进行段合并来解决这个问题。小的段被合并到大的段，然后这些大的段再被合并到更大的段。

3、段合并做了什么？

段合并的时候会将那些旧的已删除文档从文件系统中清除。
被删除的文档（或被更新文档的旧版本）不会被拷贝到新的大段中。

启动段合并不需要你做任何事。进行索引和搜索时会自动进行。
1）当索引的时候，刷新（refresh）操作会创建新的段并将段打开以供搜索使用。
2）合并进程选择一小部分大小相似的段，并且在后台将它们合并到更大的段中。这并不会中断索引和搜索。

4、为什么要进行段合并？

1）索引段的个数越多，搜索性能越低并且消耗更多的内存；
2）索引段是不可变的，你并不能物理上从中删除信息。（可以物理上删除document，但只是做了删除标记，物理上并没有删除）
3）当段合并时，这些被标记为删除的文档并没有被拷贝至新的索引段中，这样，减少了最终的索引段中的document数目。

5、段合并的好处是什么？

1）减少索引段的数量并提高检索速度；
2）减少索引的容量（文档数）——段合并会移除被标记为已删除的那些文档。

6、段合并可能带来的问题？

1）磁盘IO操作的代价；
2）速度慢的系统中，段合并会显著影响性能。

第7章管理Elasticsearch

1、有了副本机制为什么还需要集群备份？

Elasticsearch 副本提供了高可靠性；它们让你可以容忍零星的节点丢失而不会中断服务。
但是，副本并不提供对灾难性故障的保护。对这种情况，你需要的是对集群真正的备份——在某些东西确实出问题的时候有一个完整的拷贝。

2、集群如何备份？

使用 snapshot API备份你的集群。
它会拿到你集群里当前的状态和数据然后保存到一个共享仓库里。这个备份过程是”智能”的。

ES5.6集群备份官网参考： http:///RjKEH9G

3、集群备份分类？

完整备份——你的第一个快照会是一个数据的完整拷贝。
增量备份——所有后续的快照会保留的是已存快照和新数据之间的差异。随着你不时的对数据进行快照，备份也在增量的添加和删除。这意味着后续备份会相当快速，因为它们只传输很小的数据量。

4、集群可以备份到哪里？

要使用这个功能，你必须首先创建一个保存数据的仓库。有多个仓库类型可以供你选择：

共享文件系统，比如 NAS
Amazon S3：亚马逊Web云服务
HDFS (Hadoop集群分布式文件系统)
Azure Cloud：微软云平台

5、备份操作API？

PUT _snapshot/my_backup
{
"type": "fs",
"settings": {
"location": "/mount/backups/my_backup"
}
}

注意：共享文件系统路径必须确保集群所有节点都可以访问到。

第8章提高性能

1、什么情况下会出现堆内存泄漏？

如果没有足够的堆内存来供你的应用在堆上创建新对象，JVM会抛出一个OutOfMemeory异常，这是一个内存出了问题的迹象，要么是没有足够的内存给它，要么是有内存泄漏，导致没有释放不再使用的对象。

2、推荐的性能测试工具？

1）JMeter
2）ab（Apache基准测试工具）

3、ES需要优化的原因？

1）硬件问题——如机械硬盘和固态硬盘；
2）不良的数据结构；
3）糟糕的查询设计——如wildcard模糊匹配很长的字符串。

4、后台什么在运行导致CPU飙升？如何排查？

热点线程APi能向你提供查找问题根源所必需的信息。

GET /_nodes/hot_threads?pretty

5、如何扩展集群？

1）垂直扩展
向Elasticsearch集群添加更多的资源。
制约因素——如：JVM最大支持31GB物理内存。

2）水平扩展
索引多分片、多副本，集群中分散处理之。

优点：降低运行集群的成本。
版本升级后（如5.X升级到6.0），确保服务仍然可用。

6、集群架构设计考虑因素？

当你在设计架构、决定节点数量、有多少个索引以及每个索引的分片数量时，你需要把能接受的出现故障的节点数量考虑进去。

当然了，你还需要考虑性能，只不过冗余和高可用应该是进行扩展时的一个因子。

7、大规模集群节点角色如何设定？

为了有一个完全容错和高可用的集群，我们应该区分节点，为每个节点一个设计好的角色，角色分类如下：

1）路由节点或查询聚合节点；
发送子查询到其他节点，收集和合并结果，以及响应发出查询的客户端。
node.master: false
node.data: false
2）数据节点；
node.master: false
node.data: true
3）候选主节点。
node.master: true
node.data: false
http.enabled: false

候选主节点禁用Http协议是为了避免意外地在这些节点上进行查询。这样候选主节点相比于数据节点和路由节点可以使用更少的资源，可以确保它们仅仅被用来处理和主节点相关的工作。