2018，一文看尽AI发展真相（下）

天承办公室 2018-12-31

展开全文

新智元报道
编辑：文强，大明，三石

【新智元导读】2018年的最后一天，回顾 AI 技术发展，纵览一年 AI 事件。新智元创始人兼CEO杨静女士寄语：2019跨年之际，新智元继续与您一起探索不一样的天际线和地平线；穿越时空隧道，创造奇迹，突破 AI 极限！新智元感恩每一位 AI 智库专家、合作伙伴和人工智能产业链用户！预祝2019新年快乐！

再过几个小时，我们就将进入2019年。

新智元从2015年9月成立至今，一直聚焦AI行业，追踪业界、技术、学界的前沿发展。2018年12月，新智元微信公众号AI全产业链用户达35万。

上周，新智元发布了《2018，一文看尽 AI 发展真相》的上篇，在 state of the art.ai 网站收集的同行评议论文基础上，对目前为止 AI 在计算机视觉 (CV) 和自然语言处理 (NLP) 方面的 state-of-art 做了回顾。

在下篇当中，我们将介绍迄今 AI 在游戏、知识图谱和知识库、语音以及程序归纳和程序综合 (Program Induction & Program Synthesis) 方面取得的最优成果。最后，按照时间顺序，以全年AI事件纵览收尾。

游戏：AI攻克最难雅利达游戏，AlphaGo更强大！

说到“游戏”，自然是强化学习，有经典的雅达利 (Atari) 游戏和以国际象棋、围棋为代表的抽象策略游戏。

雅利达游戏：《蒙特祖玛的复仇》超越人类专家平均水平

雅达利游戏种类繁多，但基本都已被 AI 攻克。除了几个特别难的，比如：

《蒙特祖玛的复仇》要求玩家找到金字塔里的宝藏，中途有各种陷阱和机关
《陷阱》(PITFALL!) 玩家需要穿越丛林，克服众多危险，在20分钟内找到32个宝藏
《私人侦探》(PRIVATE EYE) 玩家需要追踪线索，追回被犯罪分子偷走的物品，并将罪犯逮捕归案

上述游戏对人类而言都是不小的挑战，在 AI 界则被称为“强化学习 AI 噩梦或试金石”。在这种稀疏环境奖励游戏中，使用基础的贪婪算法几乎无法过关，因为在分离奖励的帧数中，AI 可能的动作轨迹呈指数级增长。例如，在《蒙特祖玛的复仇》中，获得第一个环境奖励大约需要移动100步，也就是10018个可能的动作序列。即使随机遇到奖励，如果这个信号在特别长的时间范围内存在，那么强化学习算法也难以稳定地学习。

2018年5月，DeepMind 宣布让 AI 在《蒙特祖玛的复仇》、《陷阱》和《私人侦探》这三大超难雅利达游戏中首次令人信服地超越人类水平，方法是让 AI 观看人类玩这些游戏的 YouTube 视频。

DeepMind 表示，他们提出了全新的自监督目标，让智能体能从视频像素中学习域不变表征，还描述了一种少数据模仿 (one-shot imitation) 机制，在整个空间嵌入检查点来指导智能体进行探索。“将这些方法与标准的 IMPALA 智能体结合，我们展示了首个在《蒙特祖玛的复仇》《陷阱》以及《私人侦探》上具有人类水平的 AI。”

雅利达游戏《蒙特祖玛的复仇》，因其稀疏奖励环境，被誉为最难雅利达游戏之一，2018年首次被AI 玩过超越人类水平。

DeepMind 的结果发表几周后，OpenAI 也发布博文，描述了另一种训练智能体完成蒙特祖玛复仇第一关的方法。这种方法也依赖于人类的演示，但与 DeepMind 的稍有不同。这里有详尽的技术分析。

2018年11月底，Uber 在官方博客上介绍了他们提出的 Go-Explore 算法，不仅轻松通关蒙特祖玛，而且玩到了159 级，获得超过 200 万分，平均得分超过 40 万分！

Go-Explore 无需人类演示，智能体从领域知识 (domain knowledge) 中学习，凸显了算法利用最小先验知识的能力。即使没有任何领域知识，Go-Explore 也在蒙特祖玛中得到超过 3.5 万分，是当时最优水平的三倍多。

无领域知识的 Go-Explore 与其他强化学习算法在《蒙特祖玛的复仇》中比较。图中的每一点都代表了不同算法的得分。Go-Explore 平均得分为 35410，是之前最好成绩的 11347分的 3倍多，略高于人类专家平均水平的 34900分！

策略游戏：AlphaZero自弈胜率大涨16.5%

2018年12月7日，DeepMind的最强棋类算法 AlphaZero 作为 Science 封面论文发表，正式引入学界和公众的视野。去年底，AlphaZero 横空出世，将日本将棋、国际象棋和围棋统统拿下：从零开始训练，2小时击败最强将棋AI，4小时击败最强国际象棋AI，8小时击败最强围棋AI (李世石版AlphaGo)。

就在几天前，DeepMind 又在 Arxiv 贴出文章，用贝叶斯优化将人工调参改为自动，AlphaGo自我对弈的胜率从50%涨到66.5%，进一步刷新了AI围棋实力，而其见解将有助于开发具有MCTS的新版本的AI对弈智能体。

作为优化步骤函数的观察值和最大预期胜率的典型值

语音：中文语音识别准确率达到新高度

语音识别

2017年8月底，微软语音对话研究小组在Switchboard语音识别任务中，将错误率从之前的 5.9% 再一次降低到 5.1%，达到当时的最先进水平。微软全球技术Fellow、语音对话研究负责人黄学东在微软官方博客上称，这意味着微软创造了一种技术，可以在对话中识别词语，且与人类专业的速记员水平相当。

2018年，根据一篇发表在Arixv上的论文，The CAPIO 2017 Conversational Speech Recognition System，Kyu J. Han 等人宣布使用 Dense-LSTM 方法，在行业标准的NIST 2000 Hub5英语评估集上实现当前最佳性能。作者在论文中指出，他们还提出了一种声学模型自适应方案，通过在三个不同电话机上训练的5个系统上的RNN-LM重新校正和点阵组合，其 CAPIO 2017语音识别系统分别在语音数据集 Switchboard 和 CallHome 上获得了5.0％和9.1％的词错率，这两者都是迄今英语语音识别方面文献汇报的最好的成绩。

在中文语音识别方面则出现了一个令人比较意外的结果，AI初创公司依图科技在年底宣布，他们在全球最大的中文开源数据库AISHELL-2中，依图短语音听写的字错率（CER）达到3.71%，相比原业内领先者提升约20%，大幅刷新现有纪录。

AISHELL-2是AISHELL Foundation和希尔贝壳创建的开源数据库，含有1000小时中文语音数据，由1991名来自中国不同口音区域的说话者参与录制，经过专业语音校对人员转写标注，通过了严格质量检验，数据库文本正确率在96%以上，录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。

扬声器测量(Speaker Diarization)

语音领域顶会 ICASSP 2018，谷歌和CMU团队发表论文，汇报了他们在扬声器测量 (Speaker Diarization) 方面的进展。具体说，作者将基于LSTM的d矢量音频嵌入与最近在非参数聚类中的工作相结合，从而获得了最先进的扬声器二值化系统。

扬声器测量是指根据说话者身份将输入音频流划分为同类段的过程。它可以通过将音频流结构化为扬声器转弯来增强自动语音转录的可读性，并且当与扬声器识别系统一起使用时，通过提供说话者的真实身份。

在三个标准公共数据集 (见下) 评估结果表明，基于d矢量的二值化系统与传统的基于i-vector的系统相比具有明显的优势。在使用语音搜索领域外数据进行训练的情况下，模型在NIST SRE 2000 CALLHOME上实现了12.0％的错误率。

知识图谱和知识库

聚类

在聚类 (Clustering) 方面，根据 stateoftheart 网站，AI 做到最好的成绩是 Mukherjee 等人在 2017 年 NeurIPS 论文《论网络数据的聚类》中得到的。作者将网络概括为一个高维特征向量，然后对这些特征向量进行聚类。他们提出了两种方法，分别适用于有节点的网络和没有节点的网络。

在一系列结果中，错误率最低为 0 的情况下时间 25 秒，时间最短 2.7 秒的情况下错误率 0.1。

图 (Graph) 生成

至于图 (Graph) 生成，则是 IBM 研究院的 Tengfei Ma、Jie Chen 和 Cao Xiao 在今年 NeurIPS 发表的论文 Constrained Generation of Semantically Valid Graphs via Regularizing Variational Autoencoders 中，他们提出了一个变分自编码器的正则化框架，作为实现语义有效性的第一步。然后，专注于图的矩阵表示，并规范解码器的输出分布，以鼓励满足有效性约束。实验结果证实，与此前文献报道的其他方法相比，我们的方法在采样有效图的准确率要高得多。