【专家观点】构建自主可控开源开放平台

GTF_001 2019-07-06

展开全文

CASIA

解锁更多智能之美

【专家观点】一直以来，《前沿科学》-《人工智能》专刊力求呈现中国在人工智能关键技术研发的成果和产业发展的探索。作为2019年第2期《人工智能》专刊篇目之一，本文以深度学习为例，阐述了我国人工智能平台的发展及遇到的问题，并提出要抓住机遇提早布局、掌握话语权，奠定良好的人工智能底层基础，从而打造自主可控的人工智能产业生态。

开源开放平台是否真正安全

在人工智能领域，为了便于交流和分享，往往会由学术机构或产业巨头主导形成一些通用的开放规范或标准，并在此规范基础上共享和开源相关成果及资源，我们称之为人工智能开放平台，如英特尔针对计算机视觉应用推出的OpenCV、机器学习和数据挖据库Weka、谷歌的Tensorflow、Facebook的PyTorch、亚马逊的MXNet、微软的CNTK等。

这些AI开源平台连接底层硬件(CPU、GPU、ASIC、FPGA以及各种XPU等)和AI模型算法(深度神经网络模型、机器学习算法等)，为AI应用开发和运行提供极大便利，对AI产业和生态的发展有着重要影响(如图1所示)。

所有的开源平台都会遵循某个开源协议。不同的开源协议对开源代码知识产权、修改、商用等方面作了规范和约定。现有的几种主流开源协议包括BSD、Apache、GPL等。由于不同的开源开放平台采用了不同的协议，因此具有不同的开源特性，对其商业化路径形成了重要影响。

当前，我国的很多研究工作都是基于国外开源平台基础上进行研发，这也就意味着，主导方实质上对平台有很强的掌控权利，一旦发生商业策略变化或者商业纷争，主导方有可能修改规则或关闭平台，从而对相关的产业链造成重大影响。

图1. AI平台与AI生态关系图

国内平台影响力亟待提升

深度学习作为此次人工智能浪潮的主推手和关键技术，是人工智能开放平台中内容最多、影响力最大的主题之一。中国的学术机构和公司很早就开始注意到AI平台的重要性，比如百度推出的paddlepaddle深度学习框架、阿里巴巴的PAI平台、腾讯的NCNN和pocketflow深度学习平台、中科院自动化所的'诸葛·深知'深度学习平台和 QEngine深度学习量化加速框架、鹏城实验室的OpenI平台等。

总体来看，这些平台无论在影响力和用户数量方面与国外平台都有较大差距，各个机构本身对平台的投入和重视程度也不够。究其原因，首先，平台的建设周期漫长；其次，平台无法快速产生盈利，一般机构很难持续支持；此外，国内的学术界和工业界缺乏足够的分享驱动力，不愿意把好的算法和代码贡献出来。

掌握话语权需加速布局

人工智能开源开放平台是人工智能领域创新和产业赋能的助推器，已成为国际大公司竞争焦点。中国的企业和学术界也推出了少量的深度学习相关平台，但用户数量较少，对生态的影响力较小。同时，深度学习平台技术发展很快，当前，人工智能开源平台正在往下一代迈进，脸书(Facebook)、苹果和微软等公司联合制定了ONNX标准的中间表示语言，在动态结构、应用模块、硬件计算等方面又得到了提升。

AI平台按照云端和轻量级终端演化，向着'操作系统化'发展的趋势日益明显。人工智能产业已成为国家重点发展的领域，平台对产业的发展极其重要，要提早布局，避免'卡脖子'问题出现。

打造自主可控新生态

我国应加速启动人工智能开放平台建设，以下几个方面值得重点关注：

开源开放，拆除藩篱，联合企业和学术界共同打造建立在开放环境下的人工智能平台。借鉴WinTel联盟形式，让'平台—芯片—应用'相互支撑，发挥综合优势，建立应用生态。瞄准人工智能平台发展趋势(通用化、轻量化、模块化等)，提前部署相关前瞻性技术研发。

从新应用、创新的垂直领域等薄弱地带入手，'农村包围城市'。总之，从中短期看，需要建立顶层的标准设计，从应用(开放创新平台)、芯片(围绕芯片的开发工具链)和基础算法(开源基本模型)协同入手，形成完整创新链和强大合力，建立独立自主、相互支撑的人工智能平台新生态。

从中长期看，人工智能理论和应用还处在高速发展阶段，未来会不断涌现出新的方法和应用，我国应抓住机遇，集中力量发展开放开源的人工智能平台，奠定良好的人工智能底层基础，打造自主可控的人工智能产业生态。

作者简介