分享

一张图30个知识点,全方位认知 Elasticsearch 技术发展

 铭毅天下 2024-03-31 发布于广东

Elasticsearch 自从推出以来,就不断引领搜索和分析技术的未来。它集成了众多的功能,不仅简化了大数据的处理,还通过不断的创新,提供了全面的解决方案。

Elasticsearch 创始人Shay Banon的“We’ve come a long way”——我把它翻译为:我们经历了长久的技术积累

从最初的版本到现在,Elasticsearch已经经历了重大的发展和变化。可以从如下几个维度展开解读:

  • 功能演进:Elasticsearch从基本的全文搜索引擎发展成为一个多功能、高度可扩展的实时搜索和数据分析平台。
  • 技术成熟:随着时间的推移,Elasticsearch 在性能优化、功能扩展和用户体验等方面不断成熟,证明了它能够适应不断变化的市场和技术需求。
  • 社区与生态:Elasticsearch的成功也得益于一个活跃的“开源”社区,以及围绕它构建的丰富插件和工具生态系统。
  • 实际应用:随着更多企业和开发者的采用,Elasticsearch 已在各种行业和应用场景中展示了其强大的实际应用价值。

应用场景可能包括实时日志分析、全文搜索、安全情报分析等,而实战中的挑战可能涉及数据规模的管理、集群的调优和安全配置等方面。“We’ve come a long way”不仅总结了Elasticsearch作为开源项目和商业产品走过的成功旅程,并且隐约展望了未来的更多可能性。

本文将带你全面了解上图提及的 Elasticsearch 的核心功能,每个功能点都将链接至官方的最新文档,并提供它们最早出现的版本号,以及一句话解读其功能、应用场景和实战注意事项。

1、倒排索引 (Inverted Index)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/index-modules.html
  • 最早产生版本:0.90(可以理解为 long long ago,有官方文档记录的最早版本)
  • 功能解读:倒排索引是 Elasticsearch 进行快速全文搜索的核心数据结构。
  • 应用场景:任何需要快速检索关键字的应用,如文本搜索和文档检索。
  • 注意事项:倒排索引在高更新环境下可能会降低性能,适当优化索引策略是必要的。

2、全文搜索(Full-Text Search)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/full-text-queries.html
  • 最早产生版本:0.90
  • 功能解读:全文搜索允许用户对大量文本执行快速且复杂的查询,核心在于分词和倒排索引。
  • 应用场景:从网页内容到日志文件,全文搜索能快速定位关键信息。
  • 注意事项:正确配置分词器(中英文、自定义分词等)以避免不相关的搜索结果。

3、分词器(Analyzers)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/analysis.html
  • 最早产生版本:0.90
  • 功能解读:分词器是用于文本数据处理的组件,可以定制化以满足不同的文本处理需求。
  • 应用场景:文本分词和索引,如搜索引擎中对用户查询的理解。
  • 注意事项:选择适合内容的分词器(要会选型)对于搜索质量至关重要。

4、Tokenizers

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/analysis-tokenizers.html
  • 最早产生版本:0.90
  • 功能解读:分词器的核心组成之一,将字符串分解为单词或术语,用于建立文本数据的索引。
  • 应用场景:在用户输入搜索时分词查询,以便找到最相关的文档。
  • 注意事项:选择合适的分词器以适应不同语言和数据类型。

5、高亮(Highlighters)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/highlighting.html
  • 最早产生版本:0.90
  • 功能解读:高亮显示器在搜索结果中标出匹配的词汇,帮助用户快速定位关键信息。(任何咱们常用搜索引擎都有这个功能)
  • 应用场景:在文本丰富的搜索结果中,高亮搜索词以提升可读性和信息检索速度。
  • 注意事项:确保高亮的字段被适当地分析,以防止标记错误的文本段落。

6、索引别名(Aliases)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/indices-aliases.html
  • 最早产生版本:0.90
  • 功能解读:索引别名提供了一种灵活的方式来操作和管理索引。
  • 应用场景:用于无缝迁移和重构索引,如在线升级或索引结构变更。
  • 注意事项:在使用别名时,确保更新策略不会中断服务。

7、聚合(Aggregations)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/search-aggregations.html
  • 最早产生版本:1.0
  • 功能解读:聚合功能使得进行实时数据统计分析成为可能。
  • 应用场景:适用于统计分析,如电商网站的价格分布统计,如可视化大屏展示。
  • 注意事项:聚合在大数据集上可能会消耗大量内存和计算资源。

8、相关性评分(Relevance Scoring)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/query-filter-context.html#relevance-scores
  • 最早产生版本:0.90
  • 功能解读:相关性评分根据查询的匹配程度对搜索结果进行排名。
  • 应用场景:确保用户查询返回的结果按照相关性排序,提升用户的查找效率。
  • 注意事项:为确保相关性评分的准确性,应当仔细设计查询和权重分配。

9、查询语言(Query DSL)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/query-dsl.html
  • 最早产生版本:0.90
  • 功能解读:查询领域特定语言(Query DSL)是 Elasticsearch 强大和灵活的查询语言,允许用户精确描述他们想要匹配的文档。
  • 应用场景:构建复杂查询,如布尔逻辑或嵌套查询(Nested 或者 Join)。
  • 注意事项:复杂的 Query DSL 可能导致查询性能下降,需要权衡查询复杂性和执行效率。
  • 特别说明:尽管现在 ES|QL看着很强大(参见下图,来自朱杰大佬发布),但早期的 Elastic 爱好者已经习惯使用 DSL。同意的同学可以留言说一下自己的观点哈。

10、地理空间搜索(Geo-spatial)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/geo-queries.html
  • 最早产生版本:0.90
  • 功能解读:地理空间搜索使得地理位置数据的索引和查询变得简单有效。
  • 应用场景:地理信息系统(GIS)的数据检索,如本地服务查找、滴滴打车。
  • 注意事项:精确配置地理数据映射,以优化查询性能和精度。

11、地理位置匹配检索(Geo-matching)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/geo-queries.html
  • 最早产生版本:0.90
  • 功能解读:Geo-matching 允许根据地理位置进行搜索结果的筛选和排序。
  • 应用场景:位置搜索,如查找特定范围内的服务或零售店铺。
  • 注意事项:优化地理空间数据的索引和查询策略,以提高性能。

12、Suggesters

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/search-suggesters.html
  • 最早产生版本:0.90
  • 功能解读:推荐器为用户输入提供实时建议,以改善搜索体验。
  • 应用场景:在搜索栏中提供自动完成功能,如用户打字时推荐相关关键词。
  • 注意事项:确保suggester使用合适的数据源和算法,以保证建议的质量和速度。

13、同义词(Synonyms)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/analysis-synonym-tokenfilter.html
  • 最早产生版本:1.0
  • 功能解读:同义词过滤器能使得相关词汇的搜索更加全面,提升了搜索结果的相关性。
  • 应用场景:改进产品搜索,用户即使输入了产品的别名也能得到正确的搜索结果(比如:su7、小米汽车目前是一回事)。
  • 注意事项:管理同义词列表,确保它们是准确且最新的,以防止不准确的搜索结果。

14、预查询器(Percolators)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/query-dsl-percolate-query.html
  • 最早产生版本:1.0
  • 功能解读:Percolator 允许将查询存储在索引中,并监视匹配这些查询的实时数据流。
  • 应用场景:实时监控日志数据,以便在特定消息到达时立即触发警报或操作(特定场景才用到)。
  • 注意事项:确保percolator查询的管理,因为大量查询可能会影响性能。

15、安全性(Security)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/security-settings.html
  • 最早产生版本:2.0
  • 功能解读:Elasticsearch 提供全面的安全特性,包括数据加密和用户权限控制。
  • 应用场景:保护企业数据,如敏感信息的访问控制。
  • 注意事项:合理配置安全策略以满足不同合规要求。
  • 特别说明:早期版本1.X、2.X、5.X、6.X 安全事件频繁,7.X之后才得到好的改善。

16、字段级别安全(Field Level Security)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/field-level-security.html
  • 最早产生版本:2.3
  • 功能解读:字段级别安全让用户只能访问文档中特定的字段,提升了数据安全性。
  • 应用场景:在企业中限制敏感数据的访问,例如只允许HR部门访问员工的个人信息字段。
  • 注意事项:这是收费功能!仔细规划权限模型,以确保数据访问既安全又高效。

17、预处理器(Processors)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/ingest-processors.html
  • 最早产生版本:5.0
  • 功能解读:数据写入 Elasticsearch 前的预处理——处理器允许在文档索引前进行数据转换和增强。
  • 应用场景:数据清洗和转换,如日志格式化或丰富数据内容。
  • 注意事项:在 Ingest 节点上使用处理器会增加数据索引前的处理时间。
  • 特别说明:如果你还没有使用过这个功能,说明你的 Elasticsearch 版本太老了,快升级吧!

18、文档级别的安全(Document Level Security)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/document-level-security.html
  • 最早产生版本:5.0
  • 功能解读:文档级别安全允许基于用户角色过滤文档,确保数据访问的精细化控制。
  • 应用场景:在多租户应用中限制用户只能看到他们应该看到的文档。
  • 注意事项:这是收费功能!正确配置角色和权限至关重要,避免不必要的数据泄露。

19、BKD Trees

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/7.17/documents-indices.html
  • 最早产生版本:不详
  • 功能解读:数值和地理字段被存储在BKD树中,BKD 树优化了多维数据的索引性能,提高了范围查询和地理空间查询的效率。官方原话“Elasticsearch 使用 Lucene 内的 BKD 树来存储地理空间数据。这样便能够高效地同时分析地理地点(经纬度)和地理形状(矩形和多边形)。
  • 应用场景:例如,找出所有数值在一定范围内的文档;例如,找出所有位于特定地理区域内的文档。
  • 注意事项:在处理非常大的多维数据集时,优化查询以避免性能瓶颈。

20、跨集群检索(Cross-cluster Search)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/modules-cross-cluster-search.html
  • 最早产生版本:5.0
  • 功能解读:跨集群搜索使得可以同时在多个Elasticsearch集群上执行搜索,扩展了搜索的范围和能力。
  • 应用场景:为分布在不同地理位置的集群提供统一的搜索视图。
  • 注意事项:监控跨集群查询的性能,以避免由于网络延迟引起的响应时间增加。

21、数据加密(Data Encryption)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/secure-settings.html
  • 最早产生版本:6.0
  • 功能解读:Elasticsearch提供了在传输和静止时加密数据的能力,以防止数据泄露。
  • 应用场景:保护敏感数据,例如电子商务网站的用户信息和交易数据。
  • 注意事项:配置SSL/TLS来保护数据传输,并确保加密密钥的安全管理。就是解决“luo ”以及前文提及安全性问题。

22、向量字段(Vector Search)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/query-dsl-script-score-query.html#vector-functions-cosine
  • 最早产生版本:7.0
  • 功能解读:利用向量字段实现基于语义的搜索,提高搜索结果的相关性。
  • 应用场景:机器学习模型的语义搜索,如推荐系统。
  • 注意事项:需要对模型进行调优以提高搜索精度。

23、KNN检索(KNN Search)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/knn-search.html
  • 最早产生版本:7.0
  • 功能解读:KNN Search 允许用户根据相似性找到最近的邻居文档。
  • 应用场景:为推荐系统提供基于用户或物品相似性的推荐。
  • 注意事项:合理设置K值和向量字段的维度,以优化性能和相关性。

24、地理位置检索丰富(Geo-match Enrich)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/geo-match-enrich-policy-type.html
  • 最早产生版本:7.5
  • 功能解读:Geo-match enrich 利用地理位置数据为查询结果添加上下文信息。
  • 应用场景:将地理位置用于个性化营销,如根据用户位置显示最近的商店。
  • 注意事项:确保地理数据的准确性和及时更新,以免影响个性化体验。
  • 补充说明:enrich 功能非常强大,我理解它是多字段融合的非常好用的工具。

25、异步搜索(Asynchronous Search)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/async-search.html
  • 最早产生版本:7.7
  • 功能解读:异步搜索允许执行长时间运行的搜索任务。
  • 应用场景:适合大规模数据集的分析,如市场趋势分析。
  • 注意事项:这也是 Elastic 官方考试新考点之一,异步任务需要管理和监控以防止系统资源耗尽。

26、异步索引(Asynchronous Indexing)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/docs-index_.html
  • 最早产生版本:7.9 (引入了异步执行特性的相关概念)
  • 功能解读:异步索引允许在后台执行索引操作,提高了大批量数据处理的效率。
  • 应用场景:批量处理大量文档,如日志文件或批量数据导入。
  • 注意事项:监控异步操作以防止队列堆积,确保资源有效使用。

27、运行时字段(Runtime Fields)

  • 官方文档链接:https://www./guide/en/elasticsearch/reference/current/runtime.html
  • 最早产生版本:7.11
  • 功能解读:Runtime fields 允许用户定义脚本字段,这些字段在查询时动态计算。
  • 应用场景:实时计算文档的派生属性,如根据现有字段计算用户的年龄段。
  • 注意事项:运行时字段的计算可能会增加查询时间,需谨慎使用以保持性能。

28、基于权限的搜索结果(Permission Based Search Result)

  • 解读:基于权限的搜索结果是指搜索返回的结果将根据用户的权限进行过滤,确保用户只能看到他们有权访问的信息。这一功能通过Elasticsearch 的安全特性实现,如文档级安全和字段级安全设置,它们允许对不同角色的用户定义不同的访问权限。
  • 应用场景:在多租户环境或需要保护敏感信息的应用中,基于用户角色过滤搜索结果,如企业内部知识库的访问控制。
  • 注意事项:正确配置和管理安全策略至关重要,需要确保权限设置准确反映了组织的安全和访问控制要求,同时还要注意性能影响,确保搜索效率。

29.语言识别(Language Identification)

  • 解读:语言识别是指自动检测文本数据的语言。Elasticsearch可以通过各种分析器支持多语言文本的处理,但直接的“语言识别”功能需要借助插件或外部工具来实现。一旦识别出文本的语言,就可以应用适当的分析器来处理文本,例如为英语文本使用英语分析器,为中文文本使用中文分析器。这对于构建多语言应用、提高搜索的准确性和相关性非常关键。
  • 应用场景:在处理用户生成的内容(UGC)或多语言网站时自动识别文本语言,应用正确的分析器以优化搜索和索引效果。
  • 注意事项:自动语言识别可能不总是100%准确,特别是对于包含混合语言或少量文本的数据,因此在应用前需要评估其准确性和可靠性。

30.小结

Elasticsearch的发展历程,从倒排索引到全文搜索,再到如今的向量搜索和KNN 检索,每一步都展现了其技术的深度积累和创新。

从分词器到安全性控制,从实时聚合到基于权限的搜索结果,不仅加深了Elasticsearch作为领先搜索和分析平台的地位,也彰显了其对未来挑战的前瞻性和解决能力。

这29个核心关键词(可能不全面)不仅是Elasticsearch技术进步的见证,更是 Elasticsearch 从搜索引擎到全面搜索分析平台长足进步的标志,预示着其在数据搜索和分析领域的持续领航和创新未来。

7 年+积累、 Elastic 创始人Shay Banon 等 15 位专家推荐的 Elasticsearch 8.X新书已上线

新书涵盖上述29个知识点

短时间快习得多干货!

和全球 近2000+ Elastic 爱好者一起精进!

elastic6.cn——ElasticStack进阶助手

比同事抢先一步学习进阶干货

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章