【原】【金铃干货】周曦民：大数据智能处理中相关技术的分析

零点有数 2021-02-22

展开全文

2020年12月4日，由零点有数主办的以“面对难题，高举数据智能解法的大旗！”为主题的中国数据智能应用峰会暨2020第十届数据智能应用典范金铃奖颁奖盛典顺利召开，全国观众超250万人次通过多媒体平台同步观礼。

大会特别邀请了上海超级计算中心主任周曦民，以《大数据智能处理中相关技术的分析》为主题作精彩分享。

下文整理自周曦民先生的演讲实录：

数据智能时代一般称作大数据时代或是人工智能时代，其核心是数据智能。AI自1956年达特茅斯会议提出以后，经过了70年的发展，包括1973年的莱特希尔报告。人工智能软件以及知识图谱的出现，使得联邦学习在2015年兴起。同时，大数据技术伴随着人工智能的发展，在1960年出现了数据库管理系统，1970年出现了关系数据库管理系统，在2006年出现了大家耳熟能详的Hadoop 。在整个过程中，大数的技术和人工智能技术是同时发展的。

经过多年，新技术在不断地涌现，与此同时，近十年的数据正在以指数方式增长，数据爆炸时代已经到来。政府、企业、社会的信息化与智慧城市建设使数据不断增长，尤其体现在互联网和移动互联网。众所周知，每一个手机上都有十几个传感器在无时无刻地产生数据。2020年，全球互联的设备数预计为204亿个，人均3个左右。这样的传感器也是在每时每刻地产生数据，因此数据给这个时代带来了巨大的红利。

人工智能发展有三大驱动因素，数据是人工智能发展的基础。全球数据流量仍在快速增长，为深度学习所需要的海量数据提供良好基础。商业化的数据产业能为企业提供十万张图片、数千小时语音以上的资源和相关服务。算力作为人工智能技术实现的保障，硬件技术的变革使硬件成本指数下降，运算时间缩短，正在助力人工智能迅速崛起。同时，算法定义世界，而人工智能技术发展是一个重要的引擎，深度学习通过算法使得机器能从样本、数据和经验中学习规律。

数据智能发展有三个不同的阶段，现在所处的阶段是实现了“能存会算”，即机器拥有超强的记忆力和超快的计算能力，依赖计算机强大的储存和运算资源在某些任务上对人的行为进行模拟。第二个阶段是“能听会说，能看会认”，这个阶段已取得了很大进步，包括语音识别、图像识别，以及基于计算视觉的自动驾驶等技术已经出现。第三阶段就是“能理解会思考”，即能对知识进行组织、整理、灵活运用、联想推理等，不仅有逻辑思维，还有形象思维、创造性思维。有人认为，将来机器还会产生情感，但是这和人的情感是不相同的。可以说机器有价值观，因为它不断学习后会产生自主性，也会产生价值观。

接下来讲讲数据智能的几项主流技术。第一个主流新技术是“多模型异构的大数据技术”，随着大数据技术的使用日益广泛，数据量、数据种类爆发式增长，数据处理的场景日趋复杂，单一种类的数据架构模式已经难以满足企业需求，使用混合架构平台方案又会造成数据多次导入导出、数据一致性难确保及运维困难等问题。以前是以结构化数据处理为主，非结构化数据较难处理，现通过构建多模型异构的大数据平台，可支持多种数据模型并使用统一的查询、计算、存储、资源管理层，实现方便的统一运维管理。

第二项主流技术是“容器化的大数据技术”，它最早的应用是在物理机上，一个应用就需要一个机器。随着时代发展，虚拟技术已经非常普遍，但它有很多缺点，比如每一个虚拟机上都需要安装操作系统，会大量消耗服务器资源，约占30%，迁移服务程序需迁移整个虚拟机，且迁移过程复杂等等。但随着技术发展，容器化技术应用相对于虚拟化技术有很大的进步，比如它无需安装操作系统，对硬件资源的损耗非常小，约损耗硬件的1%~2%，同时开机直接毫秒级打开服务，非常快。此外还有很多的优点，例如云原生的特性是支持微服务、DevOps，支持应用快速上架、迭代、迁移部署，尤其计算资源弹性伸缩、扩展，可预留资源为后续应用建设做准备。拥有这个容器以后，物理机本身的性能依赖就可以减弱一部分的硬件，如果出现问题，因为容器技术有容错功能，它可以弹性无缝地进行资源调配，所以应用不会中断，因此有很多方面的优势支撑它成为主流技术。

第三个主流技术是“一站式智能分析技术”，主要包含自动建模、推荐建模等技术，降低业务分析人员的开发门槛，提升效率，实现人工智能项目的快速落地。程序员不需要从头到尾从最基本的语句开始编写编码，而是可以用低代码的技术来开发软件。同样也可以通过一站式智能分析技术来实现建模的低门槛，提升效率，实现人工智能的快速落地。其中，推荐建模技术是在建模过程中，机器会自动推送后续建模的步骤给你选择，建模操作者可以一步步写下去，快速地建立起一个模型。自动建模技术主要基于自动数据探索、自动预处理、自动特征工程的自动化特征的选择组合和转化，最终实现自动建模，进行模型自动选择、参数自动调优、额外超参自动调节。

第四个主流技术是“知识图谱”，是将数据形成以点边为关联的形态，以挖掘数据间潜在的多层关系及巨大价值。如果用人眼直接去判断数据的价值，那么对它数据价值的挖掘只有0.01%，如果通过检索信息的方式，只可以挖掘40%的数据价值，通过建立模型可以挖掘60%的数据价值，运用图计算可以挖掘近80%左右的数据价值，运用图神经网络可以挖掘超过90%以上的价值。从数据统计的信息或能够统计的信息数进行下去，可以找到规律，这个规律可以把数据变成知识，从而进行知识的沉淀与固化，最终应用到业务中。

最后讲的是“实施方案”，第一个是多模型异构的大数据技术方案，主要是使用统一的多模型异构大数据平台，实现数仓、数集、实时计算、数据探索等高复杂应用场景，同时支持传统的结构化数据、新兴的非结构化数据。基于同一个平台，方便运维管理。它有很多的功能，例如一致性管理、分布式事务、块存储管理、元数据管理等等，以及备份、高可用的技术支撑，形成了统一的分布式计算框架和计算引擎进行风险处理，可以形成实时计算、在线交易、在线的风险数据仓库以及数据功能的模块。

第二个是“容器化的大数据技术方案”，容器的操作系统包含了AI计算引擎、分布式机器学习算法库、多数据源管理以及多文件的系统管理等等，形成了图形化机器学习平台、编程式机器学习平台和高性能模型服务。基于这个技术，平台可实现将数据库、数据分析作为服务对外开放。相较于虚拟化技术，容器的技术资源损耗特别小，且应用和服务的上架、迭代、迁移更快速便捷。

第三个方案是“动态知识图谱”，舆情分析和知识推理需要强大的知识库支撑，知识图谱随舆情信息的变化而变化，形成动态的知识图谱。列举一个基于NLP事件驱动引擎的金融投研的知识图谱，它把二级市场的数据——包括股票市场的数据、行情、商品市场、外汇市场、衍生品市场等等——输入到引擎当中。知识图谱有两种，分为静态和动态，动态主要是把流数据的处理引擎加起来，同时静态的上市公司知识图谱、市场知识图谱和私募基金知识图谱会输入到引擎，把预定的事件，包括公司新股的发行、投资的热力财报的公告以及重要的央行决议、突发的热点事件都输入到引擎中，进行一个事件驱动的引擎分析，就可以形成事件的驱动量化体系，量化体系可以支撑资源、业务和投行的自营业务。与此同时，投行的智能客服实现智能的资讯推荐，可直接为客户服务。还有一个方案是风险事件的图谱传导，它可以为投行的合规业务作支撑，其中的综合压力测试为风控业务服务，产业链的价值链风向变化可以为投资研究业务方面的服务进行支撑。因此，知识图谱的应用可以大大地提升投行的能力，以及多种功能的实现。