1、引言2021年 Elasticsearch 生态和技术峰会已完美闭幕,本次峰会可谓大咖云集,精彩纷呈。 本文仅就下午场技术部分做一下梳理、提炼、总结,希望对没有来得及参加线上技术峰会的广大 Elastic 爱好者提供帮助。错过直播,但依然收获技术干货! 2、峰会技术关键词词云3、技术会议主题
4、基于流式计算平台搭建实时分析应用(吴斌)4.1 为什么要面向开源进行架构设计?
4.2 流式计算平台架构剖析如图所示,流式计算平台主要由分布式消息队列、分布式计算引擎、数据引擎三部分构成。 4.2.1 分布式消息队列
4.2.2 分布式计算引擎
计算引擎核心任务:
4.2.3 数据引擎
4.2.4 分布式存储
1)数据来源(server Application):服务器日志、监控、业务数据采集(如用户行为、购买记录、社交记录)。
4)拉取RDB业务维表与实时数据Join。 核心Tips: HBase + Elasticsearch 组合使用,以打车场景为例:
4.3 Elasticsearch 在流式平台中的角色功能(1)文本检索
(2)已知数据计算
(3)未知线索探索
4.4 云原生与k8s集群管理经验分享(核心)
为 Elasticsearch 量身定制的网关产品——极限网关 极限网关特性:
4.5 相关资源
https://github.com/elasticsearch-cn/elastic-on-gke/
https://github.com/cloudymoma/raycom
http://gateway./ https://github.com/medcl/infini-gateway 5、Elasticsearch 基于 Pipeline 窗口函数实现实时聚合计算(李猛)5.1 Pipeline 实时计算模型pipeline 管道——输入、处理、输出。 类似:logstash 中的三个核心:input、filter、output。 现有流计算的问题:
现有流计算架构问题总结如下:
现有产品架构体系不够简化,能不能不是三件套,而是单件套? 5.2 ES - Pipeline 实时计算能力
使用 Ingest pipeline 解决数据预处理问题。 前提:业务场景不复杂。 思考:Kafka、Flink 合并到用 Elasticsearch 实现。
Rollup 核心:基于时间维度实现数据转换、压缩、折叠。
Transform:自己定义脚本或者函数实现数据转换。
聚合 + pipeline 二次聚合,可以将结果写回到:索引。
5.3 ES + X实时计算畅想认知前提:ES 具备一定的实时计算能力。 ALL in One(大白话意思:“Elasticsearch 一统江湖”)。 6、基于 Elasticsearch 的容器化编排实践(白凡)6.1、为什么使用容器?
敏感业务数据:物理机集群存储。 6.2、容器化优点
6.3、由代码到上线的可追溯流程使用了:
6.4、容器化中常见问题及解决方案7、如何规划和执行威胁狩猎?(刘征)威胁狩猎本质:安全分析中高阶、顶层威胁情报集成、管理工作。 7.1 安全问题无处不在
7.2 基于现有模块构建 Elastic 安全体系Elastic 内置了监测规则、监测引擎、监测告警等。 7.3 安全威胁建模四个步骤组成:在 kibana SIEM 中创建监测规则,形成基于 KQL的威胁探测规则。 7.4 安全狩猎核心步骤第一步:通过 beats 收集日志。 第二步:通过数据丰富提高威胁情报的质量。 第三步:通过 Elastic SIEM 工具实现安全狩猎。 以上,人为对已知攻击的分析、判断。 可不可以对未知隐患发现?可以的,人工 + 机器学习实现。 7.5 推荐使用:MITRE ATTCK (内置于:Elastic SIEM)的全方位防护。上面一句话很简练,是为总结。 8、阿里云 Elasticsearch 云原生内核建设之路(魏子珺)8.1 阿里云 Elasticsearch 内核概览8.1.1 阿里云Elasticsearch内核优势阿里云内核 VS 开源内核:
8.1.2 阿里云 Elasticsearch 内核需求
8.1.3 阿里云 Elasticsearch 内核成果
8.2、云原生 Elasticsearch 如何定义?
8.3、云原生 Elasticsearch 内核如何设计?8.3.1 热节点计算存储分离——分布式文件系统8.3.2 冷热分离——冷节点对象存储挑战1:冷节点使用对象存储,只有http接口,无 POSIX 接口,需要 Lucene 底层适配。 挑战2:单次IO的延时非常高。 挑战3:无法使用操作系统 pagecache 和预读能力。 8.3.3 Serverless:让用户关心从集群下沉到索引。挑战1:如何解决多租户共享和平衡隔离问题。 挑战2:如何实现与原生ES一致的体验。 挑战3:如何评估索引的使用资源。 8.4 、阿里云云原生 Elasticsearch 实践8.4.1 热节点计算存储分离核心诉求:彻底弹性。不止是原生的动态添加节点、动态分片数据迁移。 核心需求:
彻底弹性的本质:分片的搬迁、副本的扩充,底层数据都是不动的,只需要调整的是 DataNode 到分片的映射。 热节点计算存储分离的本质是:不再需要分片的副本保证数据的高可靠性(原生 ES 需要),而是借助:分布式文件系统保障数据的可靠性。 核心技术之一:内存物理复制,实现 replica 的近实时访问。 核心技术之二:两阶段 io fence,主备切换数据一致性保证以及防止网络异常时的数据多写。 计算存储分离优势:
8.4.2 Serverless——Indexing service2021 年 2 月上线。
一句话概括Indexing Service 本质:写入托管服务,也就是说:针对时序、日志场景数据,用户无需再关系写入细节、写入优化、运维等操作,全权由阿里云托管搞定。 9、小结各位分享大咖的视频都值得看,建议大家结合自己的业务场景去看。 更多细节内容,推荐大家看视频,视频地址: https://developer.aliyun.com/topic/esanniv3rd?userCode=qzgc9fkf 推荐: 中国最大的 Elastic 非官方公众号 |
|