【原】干货 | 中小企业选型 Elasticsearch 避坑指南

铭毅天下 2023-02-21 发布于广东

展开全文

1、线上常见问题

在我线下对接企业或线上交流的时候，经常会遇到各种业务场景不同的问题。

比如，常见问题归类如下：

常见问题1：ES 适合场景及架构选型问题。

公司的核心业务是做企业员工健康管理，数据来自电子化后的员工体检报告以及各种健康数据采集设备，均存储在关系型数据库中。

先计划搞健康大数据分析，比如某企业内按部门，年龄段等对现有数据对比分析等。请问ES适合这个场景使用吗？如果适合，大致的架构是怎样的？

常见问题2：节点偶然下线问题。

运输数据场景，批量写入导致 ES 宕机，集群偶然下线后导致无法上线，怎么解决？

常见问题3：数据不一致问题。

在原有的集群规模的数据非常大的基础上，要删除接近2/3的数据。这时候，两个集群出现了数据不一致的情况，如何排查？

常见问题4：集群重启时间超过20小时以上。

超过8小时的时候，没有引起重视，后面起不起来了，才发现是大问题。

实地环境排查及大量沟通发现，这些后期出现的问题或者“坑”，前期规避的话，成本会更低。

2、发现的潜在的“坑”

如下的坑，都是中小型企业现场环境排查、腾讯会议交流等发现的。

提前声明：对于一些大型企业、大厂不见得适用，毕竟场景不同，得具体问题具体分析。

（1）没有选择相对新的8.X版本，而是选择了 6.X版本。

原因：对接 API 方便。

（2）一台高配物理机（如：256GB内存，64核CPU）部署一个节点，资源利用率非常低。

（3）不熟悉 Linux，集群部署依然基于 Windows 服务器。

（4）数据同步工具自己开发“另起炉灶”，关键功能和性能尚不如 Logstash等成熟工具。

（5）主分片设定未考虑集群未来的可横向扩展性。

（6）批量写入不考虑集群性能上限，直至节点宕机脱离集群。

（7）不借助可视化工具：Kibana monitoring 监控集群，甚至 head 插件也没有用起来，出现问题不知道如何排查。

（8）命令行 DSL 仍然借助 Postman 等工具实现。

（9）Wildcard 模糊匹配召回结果符合预期，就大量不计后果的使用。

（10）查询细节参数不了解，能用起来就不关心其他。

3、Elasticsearch 常见认知“误区”

认知误区1：Elasticsearch 是关系型数据库。

实际上，Elasticsearch是非关系型数据库，不支持严格的关系数据模型，而是采用文档型存储。

探究 | Elasticsearch 与传统数据库界限

认知误区2：Elasticsearch 只适用于搜索。

Elasticsearch不仅适用于搜索，还支持聚合、分析等功能。

认知误区3：Elasticsearch 无需预处理数据。

Elasticsearch需要预处理数据，并对数据结构有严格的要求，否则可能导致检索效果不佳。

认知误区4：Elasticsearch 可以无限扩展。

（1）纵向扩展得看机器是否支持动态扩内存、CPU等资源，取决于硬件。

（2）横向扩展得看多节点集群规模能否适配性能指标，不见得是机器越多越好。

认知误区5：Elasticsearch 安全性很高。

Elasticsearch 本身 7.1 之前不提供严格的安全性，需要通过相关的插件或配置来实现安全性。7.1（含）之后 xpack 基础功能免费，8.X 之后安全成为必选项！

认知误区6：Elasticsearch 无需维护。

不止要维护，Elasticsearch 需要定期维护，包括数据备份（借助快照和恢复功能）、性能优化、安全更新等。

4、避坑方案探讨

4.1 Elasticsearch 版本及架构选型避坑

关于版本选型，Elastic 官方工程师如是说：“我完全理解稳定性是最重要的问题。在那种情况下，我们不应该选择最新版本的 Elasticsearch。作为参考，所有当前和过去的版本都可以在此页面上找到......作为一种模式，我建议比最新版本早发布 4 到 6 个月的版本”。——来自阮一鸣老师和ES官方的讨论帖。

关于版本选型，张超老师说“对稳定性要求比较高的生产，不要用最新的版本，谁不也知道有没有严重 bug，往前推一些，看看社区反馈没有大问题的版本，修正版本号用最高的”。

如下几点要谨慎考虑：