分享

腾讯大数据套件,带你玩转大数据【鹏越·精选】

 yanyahoo 2017-11-26
2017-10-10 腾讯大数据 鹏越网络空间安全研究院

鹏越是上海交通大学信息安全工程学院产业化平台。致力于全球网络空间安全前沿技术、人才培养、战略规划、网络空间治理、安全资讯、情报分析、人工智能、信息技术前沿等领域的研究,共建网络强国!

近十年的发展,随着大数据技术的不断成熟以及互联网应用案例的普及,'数据驱动业务'的模式逐渐得到各行各业的广泛认同,“互联网 ”战略的提出更是为大数据从互联网向其他行业的传播吹来一阵东风。腾讯作为互联网企业的代表,早在09年就开始探索建设大数据平台,经过批量计算到实时计算、离线查询到即席查询的阶段发展,逐步形成一套以TDW(离线计算)、TRC(实时计算)、TDBank(数据接入)、TPR(精准推荐)、Gaia(集群调度)为核心模块的大数据体系,为公司的效果广告、用户画像、视频推荐等业务提供了强有力的支撑。

总体概览腾讯大数据套件(以下简称大数据套件)由大数据平台集群控制台两大平台构成:大数据平台面向数据开发人员,整合各种大数据基础系统,组合成特定的数据流水线;集群控制台面向运维人员,统一管理大数据平台的系统,提供集群部署与管控的功能。

不同的企业机构对大数据基础设施的要求不尽相同:有的需要自建数据中心,或者对数据安全有特殊需求;有的需要资源弹性伸缩,按需动态分配。 针对前者用户,大数据套件提供完整安装包,可以直接在私有的物理机上部署集群(称之为On-premise模式);针对后者用户,大数据套件与腾讯云整合,按需动态分配腾讯云主机来部署集群(称之为In-cloud模式)。


图1. 大数据套件总体架构大数据平台

一条完整的数据处理流水线通常由“接入-存储-计算-输出-展示”五个环节衔接而成。大数据技术经过阶段性地发展,各环节都涌现出一批相互借鉴、相互补充的基础系统。大数据套件将常见的基础系统(包含社区版系统、社区改造版系统以及腾讯自研系统)集成封装,形成统一的大数据平台。数据开发人员可以从大数据平台自由选择不同的基础系统来构建数据流水线,以满足不同场景的数据处理需求。

图2. 基于大数据平台构建完整的数据流水线

基础系统接入层

存储层

计算层

输出层

展示层



图3. Lhotse 的任务依赖图集群控制台

如前文所述,搭建大数据流水线需要组合各个环节的基础系统,每个系统都是分布式的,并且部署、配置、启停、监控方式都有所差异,这给运维人员带来极大的挑战。为了降低这种运维复杂度,大数据套件自带一个Web 控制台(简称控制台),提供统一的部署、管理及监控界面,只需简单点击即可完成基本的集群维护工作。抽象要统一管理各个不同的系统,必须定义通用的抽象来描述任意的系统。控制台以“服务-服务组件-组件节点”三个概念实体来抽象系统:一个系统对应为一个服务,服务由多个服务组件构成,服务组件可以部署到多台机器节点上,每个节点上的组件实例称为组件节点。下图以HDFS 为例来对应抽象,更为直观。


图4. 集群控制台对系统的抽象化部署通

过标准化的安装向导,数据流水线中的所有服务可以被一次性部署到集群。安装过程涉及如下几个主要步骤,由集群控制台自动执行:

·选择服务:服务间可能存在依赖关系(例如,HBase 依赖Zookeeper),控制台能够自动解析依赖,生成正确的安装顺序。

·规划机器:根据资源需求与集群规模,为不同的服务组件分配运行机器,以达到最优的资源利用率。用户也可以自定义机器规划,为某个服务组件选择特定的机器。

·创建账号:在安装机器上创建每个服务的特定账号,必要的时候设置SSH无密码登陆。

·配置服务:根据集群规模和机器参数,生成推荐的默认配置。用户也可自定义配置,修改某些配置项(所有服务配置均以KV键值对的形式展示)。

· 分发部署包:支持两种部署包分发方式——YUM RPM 包和Docker 镜像(大数据套件提供额外的安装包来搭建YUM 仓库或Docker Registry)

图5. 部署过程中的规划机器步骤
图6. 部署过程中的自定义配置步骤

管理管理本质上是对集群的当前状态做变更操作,控制台允许用户对已部署的集群做以下变更:

· 启动/停止:启停的对象可以是服务/服务组件/组件节点。同时启停多个服务组件可能要求特定的操作顺序(例如,NameNode 必须在DataNode 之前启动),控制台将根据预设的顺序关系,自动生成操作DAG。

·变更配置:某个服务配置项的变更,将在服务重启时自动下发到对应的组件节点。同时,控制台维护配置的历史版本,可以在版本间任意切换。

· 扩缩容:扩缩容的对象是集群/服务组件。扩(缩)容集群意味着上架(下架)机器;扩(缩)容服务组件意味着从集群已有机器上安装(卸载)组件节点。

· 卸载/清理:卸载的对象是服务,用户可以选择是否清理历史数据。

·升级版本:有两种升级方式——全量升级与增量升级。全量升级必须先停止所有的组件节点,导致服务的暂不可用;增量升级(也称灰度升级)可选择部分组件节点先升级,前提是服务本身支持HA 特性(比如HDFS、YARN)。

图7. 集群服务的管理界面监控监控

本质上是对集群的当前状态做健康检查与报告,控制台从指标与告警两个方面来展开监控。指标由系统指标和服务指标两部分:系统指标反映了集群整体的CPU、内存、网络、磁盘的负载情况;而服务指标反映了业务级别的状态,如MapReduce任务个数、HDFS 总数据量、HBase 平均查询时间等。

图8. 集群指标的展示界面

告警是在集群出现异常状态时被触发,控制台当前对如下几类状态做告警监控(一个服务可以指定多个告警类型):


图9. 集群告警的查询界面

后话大数据套件作为腾讯大数据平台开放的重点产品,已经与多家企业机构展开合作。腾讯后续会持续地加大投入,在逐步完善现有的两大平台(大数据平台与集群管理平台)的,同时,启动建设建立通用的数据分析平台(文本分析、OLAP 等、),帮助更多的企业机构认识大数据、玩转玩好大数据。

(来源: 腾讯大数据

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多