互联网界通用大数据架构概览

旅行者m1 2023-04-25 发布于辽宁

展开全文

大家好，我是流火哥：）

最近给很多公司和朋友做了大数据架构体系方面的咨询，所以决定来更新一版行业发展到目前为止的大数据体系与架构。整体如下：

数据源层：底层数据源来自于RDBMS、手机客户端和PC、M、H5等进行的埋点后采集到的点击上报数据、nginx的访问日志、后端程序打印的业务日志、第三方API采集的数据、以及监控系统数据、IOT时序数据等。
数据集成/ETL层：该层利用各种数据采集、数据同步、传输工具，通过ETL过程将上述各种数据源进行采集、汇总、清洗、转换、加载到数仓中，而数仓则是基于3所提到的各种基础设施结合数仓建模方法而构建的集中化、面向主题的、持久不变的大型数据中央存储。通过实时数据订阅、ETL、日志搜集组件（如flume、logstash、filebeat等）和离线数据同步工具（如sqoop）将数据源实时或离线方式同步到数据仓库里，在此过程中会使用到各种大数据领域常见的基础组件如hadoop、spark、canal、ELK等，也会有实时计算框架flink、storm、spark streaming等。
基础设施/组件层：数仓工程师将处理后的数据写入到各种持久化存储里如HDFS、Kudu里，这些集群的运作和高可用协调离不开zookeeper等分布式配置中心，而非常受欢迎的kafka则经常扮演一个日志MQ或数据流中转站的角色来承上启下。这一层基础组件的开发和维护通常会由大数据团队兼职或在公司规模达到一定阶段后交由专门的SRE或OP人员来维护。随着大数据行业快速发展，近些年也涌现出各种新型分布式存储如nosql类、时序数据库、湖仓一体（典型代表hudi、iceberg）。为了加速多维度查询，也会由相应的OLAP引擎来提供即时查询服务。这一层整体偏IAAS或PAAS。
数据平台层：这一层更多由专门的大数据研发团队来开发例如数据发布订阅系统、数据仓库，基于spark或tensorflow等封装计算平台以及计算引擎等，来为上层应用提供进一步开发或运行环境。这一层往往也为上层机器学习、深度学习、BI等数据应用提供了数据和算力支撑。部分大厂会将纷繁复杂的特征、标签进行中台化沉淀并输出，也形成相应的中台化能力。这一层整体偏PAAS。
数据应用层：真正能为世界产生价值的大数据应用层终于出现了！从简单的数据统计、数据报表、商业智能BI、DSS决策支持系统到千人千面的用户画像、个性化推荐、搜索统计、广告排序竞价排名（百度的核心收入体系）、金融后台通用的风控业务、数据挖掘与分析、OLAP平台等等，来帮助运营、销售、产品、业务以及公司高层人员来实现全面、智能化分析决策，更能赋予产品智能化自驱、智能化运行的能力，最终实现更高的用户价值、商业价值。这一层整体偏SAAS或DAAS。
周边旁路系统：贯穿于以上各个层面，监控平台、性能测量、大数据和机器学习任务的统一调度平台、资源管理平台、容量管理、自动化运维部署和扩容平台、元数据治理等平台，一起共同保障整个大数据系统稳定、高效、低延时的运行，从而达到“成本、质量、效率”多管齐下。