发文章
发文工具
撰写
网文摘手
文档
视频
思维导图
随笔
相册
原创同步助手
其他工具
图片转文字
文件清理
AI助手
留言交流
Bigo 实时计算平台的发展历程
特色与改进
业务场景
效率提升
总结展望
一、Bigo 实时计算平台的发展历程
在 2018 年之前,实时作业还非常少,我们使用 Spark Streaming 来做一些实时的业务场景。
从 18 年到 19 年,随着 Flink 的兴起,大家普遍认为 Flink 是最好的实时计算引擎,我们开始使用 Flink,离散发展。各个业务线自己搭一个 Flink 来简单使用。
从 2019 年开始,我们把所有使用 Flink 的业务统一到 Bigo 实时计算平台上。通过两年的建设,目前所有实时计算的场景都运行在 Bigo 平台上。
二、Bigo 实时计算平台的特色与改进
功能强大的 SQL 编辑器。
图形化拓扑调整、配置。
一键多集群部署。
版本统一管理,尽可能收敛。
完善的 savepoint 管理机制。
日志自动收集到 ES,内置常 用错误排查规则。
保存了任务历史,方便进行对比和问题追踪。
监控自动添加,用户基本无需手动配置。
自动化分析资源使用,为用户推荐合理资源配置。
Kafka 的元数据打通之后,就可以一次导入,无限使用,无需 DDL。
Flink 与 Hive 也做到了完全打通,用户在使用 Hive 表的时候,无需 DDL,直接使用即可。
ClickHouse 也类似,可自动追踪到 Kafka 的 topic。
通用打点完全自动化接入。
用户无需开发任何代码。
数据进入 hive。
自动更新 meta。
数据源自动切换。
监控规则不变。
结果自动存入 prometheus。
第一,在 connector 层面,我们自定义了很多的 connector,对接了公司用到的所有系统。
第二,在数据格式化层面,我们对 Json,Protobuf,Baina 三种格式做了非常完整的支持。用户无需自己做解析,直接使用就可以。
第三,公司所有的数据都直接落到 Hive 里面,在 Hive 的使用上是领先于社区的。包括流式的读取,EventTime 支持,维表分区过滤,Parquet 复杂类型支持,等等。
第四,在 State 层面我们也做了一些优化。包括 SSD 支持,以及 RocksDB 优化。
三、Bigo 典型的业务场景
第一,不稳定,flume 一旦有异常,经常会出现数据丢失和重复。
第二,扩展能力差。面对突然到来的流量高峰,很难去扩展。
第三,业务逻辑不易调整。
尽可能简单。
通用打点全自动。
元信息打通,无需 DDL。
Parquet 写优化。
并发度调整。
通过 SSD 盘,支持大状态的作业。
RocksDB 优化,更好控制内存。
四、Flink 为业务带来的效率提升
State 支持 SSD 盘。
流式读取 Hive,支持 EventTime。
Hive 维表 join,支持 partition 分区 load。
完善的 ClickHouse Sinker。
五、总结与展望
第一块是拓展更多的业务场景。包括实时机器学习,广告,风控和实时报表。在这些领域,要更多的去推广实时计算的概念,去跟业务对接好。
另外一块就是在 Flink 自身上面,我们内部有很多场景要做。比如说,支持大 Hive 维表 join,自动化资源配置,CGroup 隔离,等等。以上就是我们在未来要做的一些工作。
来自: 昵称10087950 > 《JAVA》
0条评论
发表
请遵守用户 评论公约
小红书如何实现高效推荐?解密背后的大数据计算平台架构
在实时流中,首先用户的实时交互进入Kafka,借助Flink任务维护用户笔记画像,将其传给线上用户画像系统。实时归因是一个有状态的场景,...
大数据技术
大数据技术。Hbase:构建在HDFS之上的分布式、面向列族的存储系统,在需要实时读写并随机访问超大规模数据集等场景下,Hbase目前是市场上主流的技术选择。Drill:实时大数据分布式查询引擎,Drill兼容A...
基于Flink构建实时数仓实践
基于Flink构建实时数仓实践。ODS 层:存储 APP 各业务线埋点数据以及业务端各种日志;主要是将客户端产生日志、服务端接收日志、flume ...
博文推荐|借助 Flink 与 Pulsar,BIGO 打造实时消息处理系统
博文推荐|借助 Flink 与 Pulsar,BIGO 打造实时消息处理系统关于 BIGO.Apache Pulsar 在 BIGO 中的角色引入 Pulsar 的历程。我相信在介...
好未来基于DorisDB的全新实时数仓实践
好未来基于DorisDB的全新实时数仓实践。如上图所示,实时的日志数据通过Flume采集到Kafka,实时的业务数据通过canal实时同步数据库的bin...
一套 SQL 搞定数据仓库?Flink有了新尝试
Flink有了新尝试。Flink中离线数仓和实时数仓都使用Hive Catalog:-- Kafka table相关配置);-- build batch database and tables;create...
大数据面试,经常问哪些东西?
大数据面试,经常问哪些东西?而且大数据开发、数据仓库开发、数据分析方向问的东西也是不同的。而Spark无论是数据开发,还是数据仓库开发都是要会的。其实数据仓库的东西也是很多的,如数据建模、拉链...
大数据生态圈如何入门?
在企业运行的过程中,特别是互联网企业,会产生各种各样的数据,如果企业不能正确获取数据或没有获取数据的能力,就无法挖掘出数据中的...
滴滴实时大数据平台架构解析
滴滴实时大数据平台架构解析。本文将针对滴滴大数据平台做分析,看看这种场景的大数据架构是如何搭建和实现的。Druid实时聚合数据指标。...
微信扫码,在手机上查看选中内容