分享

大数据能力开放平台创新与发展 ——打造共存、共赢可持续发展的创新生态服务

 wuhancar 2018-03-07

【关键词】大数据能力开放平台、数据服务、多租户
 
 背景描述

随着市场竞争日益加剧,电信运营商业务复杂度不断上升,市场模式已从单纯的资费竞争逐渐转向服务竞争,要求电信运营商在业务模式、市场模式、服务模式等方面不断优化提升,需要为客户提供更为全面的服务。同时在移动互联网时代,客户的行为模式也从传统的“语音+短信+增值”业务模式转变为“语音+应用+流量”的新业务模式,要求电信运营商由“语音”经营时代进入“语音+流量”经营时代,同时融合企业内外部数据构建大数据平台,实时把握用户动态的、复杂的和碎片化的生活需求特征,识别身份、还原用户生活场景,深度洞察客户需求,通过数据驱动运营流程变革和信息资产变现。


在以上背景下,电信运营商重点发展大数据平台战略,完成大数据平台的建设和布局,采集范围从传统的BSS域、MSS域扩展到内外部移动互联网数据、用户位置信息,并积极尝试数据对外合作,把实现“开放大数据价值,建立数据生态”作为电信运营商大数据发展核心。依托大数据平台如何把数据设备商、数据提供商、平台开发商、数据应用商、数据受益者整合起来,创造新的大数据价值链体系,充分挖掘利用电信运营商丰富的数据资产,对内实现流量经营支撑业务生产,提升运营效率,对外为第三方合作伙伴及行业客户提供数据服务和数据应用产品成为实现电信运营商数据域的新的战略挑战。

 
市场行业发展趋势

经过多个阶段的发展,电信运营商大数据平台对内主要支撑市场营销、维系服务、大数据分析类服务,对外为合作伙伴提供精准营销服务、标签服务、第三方合作伙伴平台服务等,合作的伙伴涵盖政府、金融、互联网等多个行业,增加了大数据增值服务创收。


大数据平台在实际的应用建设过程中逐步暴露了一些瓶颈和问题,平台数据缺乏整合,数据堆叠现象严重,同时开发者及合作伙伴没有完整高效的利用平台服务、数据挖掘服务、数据分析以及实时计算服务等能力,平台没有形成标准化服务构建,缺失统一共享开放的数据资产与标准化服务运营管理。


打造大数据能力开发平台,全面提供大数据分析应用开发能力,并将这些能力开放给合作伙伴,聚合具备如数据运营、数据开发、数据应用等各种专业能力的伙伴,共同打造创新的商业生态是电信运营商“开放大数据价值,建立数据生态”的最佳运营模式及必然途径。

 
构建可持续发展的创新生态服务

大数据能力开放平台定位是基于大数据平台基础上的能力补充和功能扩展,是大数据平台的子集,对内支撑公司大数据应用,对外支撑合作运营,为入驻的第三方合作伙伴提供“HDFS+MPP+Spark实时数据流”的各类存储和计算框架,各伙伴租户之间计算资源、存储资源、数据资源相互隔离。依托大数据能力开放平台为租户提供经过脱敏后的用户个体明细数据、个体汇总数据、个体标签数据和群体化数据,同时还提供多种建模工具、安全组件、报表展示工具和容器环境等内容。大数据平台主要完成BSS域、MSS域、OSS域的数据采集、清洗和加工工作,大数据能力开放平台中的租户进行模型训练所需的元数据和样本数据全部来源于大数据平台

 
关键步骤


大数据能力开放平台从能力接入、资源隔离、运营、安全、数据服务等方面以租户的形式全方位多角度地为合作伙伴提供平台服务,满足内外部的存储计算能力、数据服务、平台工具能力需求,通过开放平台释放电信运营商大数据价值,实现创收。

能力服务

包含了能力中心、能力集成、租户管理和系统管理4个模块。通过能力中心,租户可以查询平台提供的全部工具组件的种类、版本、容量、技术支持等信息,并根据需要申请使用;能力集成模块实现了数据中心所有应用程序编程接口(application programming interface,API)集中注册、发布、订阅、发现、安全管理控制与运行质量分析的管理;租户管理模型实现租户的注册、入驻、退租、资源扩容和缩容、计费等功能;系统管理模块实现了对租户各类角色的功能权限和数据权限管理、应用日志和系统日志的管理。

能力整合

是整个开放平台的核心部分,由工具与组件、数据服务、标签库产品、数据处理框架、容器服务4个模块组成。

(1)工具与组件:面向租户提供元数据、数据质量、安全管理、自定义报表、交互式探索、建模、统一日志服务等工具和服务,协助租户完成数据作业加工和展示的全过程。其中统一日志服务主要实现全平台一站式日志集中采集和分析服务,协助提升运营运维效率。平台的整个监控体系也是建立在统一日志管理服务基础上的,租户的各种资源运行情况、各类公共服务的状态、租户自行部署各类应用状态,都要通过统一日志分析形成诊断结果。

(2)数据服务:数据服务主要包括数据资产管理和数据获取服务,数据资产管理指的是对固网、移动网络和宽带用户资料、明细话单、账单信息、关系圈信息、上网行为日志和位置信息等数据结构进行管理。数据获取服务主要是租户订阅和获取样本数据的服务过程,可以按照自定义用户群、特定账期、连续账期、用户群关联关系、全样本抽取比例等多个样本提取规则自助获取适配数据。

(3)标签库产品:标签库产品涵盖数据中心发布的公共标签产品、行业标签产品和租户自己定义的个性化标签产品,公共标签和行业标签支持标签树展示和标签权限管理,个性化标签除此之外还支持新建、删除、解析、匹配规则定义的能力。标签的内容包括标签的层级定义、取值范围定义、生命周期、标签使用建议等方面。

(4)数据处理框架:由于不同的租户业务需求不一样,对于各类计算资源的熟悉程度也不一样,他们对计算框架的选用有自己的偏爱,所以开放平台需要在框架层提供丰富、多样的大数据计算框架种类,用于满足海量数据计算、复杂逻辑关联、流式数据处理、高并发低时延海量数据查询、消息分发等多种场景,种类随发展需要还在不断增加。关系型数据库主要是MySQL,一般处理关联程度比较高的结构化数据。MPP数据库主要是Impala和Aster,Impala是一款SQL on Hadoop开源数据库,其最显著的特点是结合了Hadoop分布式文件系统(HDFS)分布式存储系统和SQL查询语句,它采用“列式存储”的设计,这使其成为了一款高速的分析型数据库。KV数据库有HBase和Redis,数据库采用HBase+Redis混搭架构可以实现毫秒级的数据接口服务。离线计算提供了Hive/MR/Spark等最为大家熟悉的计算框架。在数据流处理上提供了Flume+Kafka+Spark streaming的混搭结构,一个完整的数据流处理过程包括数据采集、数据接入、流式计算、数据输出,采用Flume从各个采集点上实时采集数据,由于采集数据和处理数据速度不一定同步,采用Kafka作为消息中间件进行缓冲,数据处理环节由Spark streaming来完成,数据输出后进入持久化环节。FTP环境主要是方便租户带入自有数据和带出结果数据(指向安全网关),FTP集群为3个层级结构,自上向下依次为负载均衡层、服务器群组层、存储共享层。集群对外提供VIP地址访问,负载均衡服务器根据内部规则合理指向实际的FTP服务器,存储则直接挂接HDFS。

容器服务

容器服务提供Mesos+ Docker的容器环境服务。容器服务一方面是为开放平台自身的门户、工具、组件、API网关等提供部署环境,另一方面为租户自身开发的Web和Service提供部署环境。Docker消除了线上线下的环境差异,保证了应用生命周期的环境一致性和标准化。支持开发人员使用镜像实现标准开发环境的构建,开发完成后通过封装完成环境和应用镜像分组封装,测试和运维人员可以直接通过部署软件镜像进行测试和发布,同时为整个数据中心提供分布式调度与协调功能,实现数据中心级弹性伸缩能力的软件堆栈,它将所有数据中心的资源当做一台大型计算机来调度,可以视作这个大型主机的操作系统。

平台安全管理

整个平台部署在电信运营商内部生产网上,机房及区域之间都经过硬件防火墙隔离。整个平台建设都严格按照相关电信安全规范。数据安全总的原则是“用户敏感数据不出门”,数据在进入能力开放平台之前在进行数据脱敏处理,脱敏的敏感数据不限于用户名称、身份证、位置、地址、号码等信息,租户需要的样本数据要经过严格的脱敏环节及人工双重审核,双向保障数据输出安全。


 
经验总结与分享


电信运营商大数据能力开放平台主要是向合作方提供联通脱敏数据、样本数据进行模型训练、数据挖掘等并获取最终数据。涉及的第三方合作客户业务包括生产经营、信用评价、位置服务、精准营销、行为洞察等各方面。平台已经成为电信运营商大数据对外服务产品体系之一,未来将不断扩大平台广阔的价值空间,创造更高的社会价值及企业效益。


关注我们

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多