谷歌最前沿：计算机实现自我编程、深度学习诊断预防失明、神经机器翻译系统、RadarCat物体识别，颠...

老爷子adqkpehp 2016-12-04

展开全文

谷歌最前沿：人工智能唇读术、多语言神经机器翻译、隔空感应物体

谷歌新目标——让计算机实现自我编程

自主机器时代不再遥远

来源：新智元

【新智元导读】许多人对AI的想象都停留在应用层，而忽视了技术层AI也将产生颠覆——让机器自己编程。谷歌大脑、DeepMind、Facebook甚至Viv 都在这一方向上努力，发表了一系列研究论文。Venture Beat 作者 Lucas Carlson认为，机器自我编程其实离我们并不遥远，将很快实现。一旦机器做到这一步，在软件发挥重大作用的所有领域，将会经历一场颠覆性的变革。

想象AI 的未来是很有趣的：家庭服务机器人、亚马逊的智能家庭中枢（Echo）等设备将走进每家每户，还有无人机快递和更加精准的医学诊断。这些吸人眼球的消费应用充斥着公众的想象，以至于大家都忽视了AI对另一个领域的颠覆——软件本身的发展。

想象一下，如果计算机自己能理解自己，它们可以做些什么？用不了多久，计算机就能做到这件事。并且，我不是在描述遥远的未来，我说的是触手可及的现在，使用时下现有的技术就能达到。

迄今为止，机器学习的专家倾向于聚焦那些为特定任务开发的AI 应用，比如人脸识别、自动驾驶、语音识别甚至是搜索。但是，如果这些类似的算法能够在不需要人为帮助、解释或者干预的情况下，理解它们自身的代码结构呢？正如他们理解人类的语言和图像一样。

如果代码开始对自己进行分析、自我修正并提升，且速度比认为的更快，那么技术的突破可能会来得更快。由此带来的可能性是无止境的：医学的进步、更加自然的机器人、更智能的手机、更少bug的软件，更少的银行欺诈等等。

人工智能具有解决软件开发中的一个古老问题的潜力。代码编写或操纵其他代码的能力的概念已经存在了很长时间，一般称为元编程（它实际上起源于20世纪50年代末的Lisp）。它解决的难题，目前都还在人们的想象之中。

但是，现在人工智能让改变发生了。

使用人工智能，计算机能够理解一个软件开发项目从无到有的发展历史过程中的所有代码，并立即改进或者删除单独一行代码中的bug，不管是用什么编程语言。即便是一个缺乏经验的或者中等水平的程序员都能讲清楚让计算机自我编程的原理。由此，一个癌症项目的研究可能几天或者几个月就能完成，而不需要花费好几年的时间，这将带来显著的进步。

今天，这项最终将会带来颠覆性改变的技术尚处在萌芽时期，但是，它已经开始生长。比如，谷歌的TensorFlow机器学习软件，让每位程序员都能将神经网络直接融入到所开发的APP中，让APP拥有识别图片中的人和物体的能力。要把这些想法变成现实，你将不再需要一个博士学位。让业余人士也可以修正程序，这可能会成为AI发展历史上最大的突破。

谷歌的目标：大部分代码都不需要人为编写

国外著名科技记者 Steven Levy 今年 6 月在他刊于 BackChannel 的文章《谷歌如何将自己重塑为一家“AI 为先”的公司》（How Google Is Remaking Itself As A 'Machine Learning First' Company）中提到，谷歌大脑负责人 Jeff Dean 表示，随着他和团队对机器学习了解得更多，他们利用机器学习的方法也更加大胆。“以前，我们可能在系统的几个子组件中使用机器学习，”Jeff Dean 说：“现在我们实际上使用机器学习来替换整套系统，而不是试图为每个部分制作一个更好的机器学习模型。”Levy 在文中写道，如果现在让 Jeff Dean 改写谷歌的基础设施，大部分代码都不会由人编码，而将由机器学习自动生成。

谷歌的代码bug预测系统，使用一个得分算法，随着commits变得越来越旧，它们的价值越来越小。

认为计算机自我编程离我们还很远？如果我告诉你，一些大公司，比如谷歌，已经开始在内部的项目管理系统中尝试使用这一概念，你可能会觉得震惊。但是，谷歌确实已经开发了一个 bug 预测程序，使用机器学习和统计分析，来判断某一行代码是否存在瑕疵。谷歌工程师、W3C的联合主席 Ilya Grigorik 也开发了一个开源版本的 bug 预测工具，目前已被下载 2万次。

开源地址：https://github.com/igrigorik/bugspots

Ilya Grigorik ，图片来自twitter

另一个例子来自Siri 的继承者——Viv。Wired 最近的一篇报道中写道，Viv 不仅使用一系列的自然语言处理来实现语言识别，还基于英语词汇建立了复杂的自适应性计算机程序。代码自己写代码（Code writing code）。由于被写入的代码是经过Viv的开发人员自己训练和专门化的，所以这里的“写代码”并不是我们通常所说的写代码的能力，但这确实是一个大的进步。

在这个方向上，另一个大的进步来自非专业领域。Emil Schutte 曾有过一句非常具有挑衅性的言论：厌倦了写代码？我也是！让Stack Overflow来做这件事吧。他分享了一个例子来证明这一概念，从Stack Overflow 的大型编程数据库中提取完整的工作代码，来提供完整的功能代码块，但是，这样得到的模块还是基于已经写好的代码。

DeepMind 的尝试

实际上更早之前，DeepMind 团队开发了一个“神经编程解释器”（NPI），能自己学习并且编辑简单的程序，排序的泛化能力也比序列到序列的 LSTM 更高。描述这项研究的论文《神经程序解释器》（Neural Programmer-Interpreters），被评选为 ICLR16 最佳论文。

NPI 是一种递归性的合成神经网络，能学习对程序进行表征和执行。NPI 的核心模块是一个基于 LSTM 的序列模型，这个模型的输入包括一个可学习的程序嵌入、由调用程序传递的程序参数和对环境的特征表征。这个核心模块的输出包括，一个能指示接下来将调用哪个程序的键、一个经典算法程序的参数，以及一个能指示该程序是否该停止的标记。除了递归性内核外，NPI 构架还包括一个内嵌的可学习程序的键值内存。这种程序-内存的结构对于程序的持续学习和重用是极其重要的。

图 6：NPI 与序列到序列 LSTM 对不同长度的序列进行排序的准确率对比，最长序列含有20个数组。

NPI 有三个拥有学习能力的部件：一是任务未知的递归内核，二是持续键值程序内存，三是基于特定领域的编码器，这个编码器能在多个感知上有差异的环境中让单一的 NPI 提供截然不同的功能。通过合成低层程序表达高层程序，NPI 减少了样本复杂性，同时比序列到序列的 LSTM 更容易泛化。通过在既有程序的基础上进行建构，程序内存能高效学习额外的任务。NPI 也可以利用环境缓存计算的中间结果，从而减轻递归隐藏单元的长期存储负担。

不过，当时 DeepMind 团队并未使用无监督学习的方法的训练 NPI，其模型也只能学习合成若干种简单的程序，包括加法、排序和对 3D 模型进行正则化转换。不过，单一 NPI 能学会执行这些程序以及所有 21 个关联子程序。

田渊栋对计算机自我编程的研究综述

Facebook 人工智能实验室研究员田渊栋在他提交 ICLR17 的文章中，就有一篇研究了这方面的问题。

论文摘要：构建能够通过自动推断（infer），将一组输入映射到输出的计算机程序仍是一个开放且极具挑战性的问题。由于在可能的程序上存储着巨大的搜索空间，并且需要处理高阶逻辑（如 for循环或递归），所以程序进行归纳（induction）任务是很困难的。在本文中，我们使用 Hierarchical Generative Convolutional Neural Networks（HGCNN），自动根据输入/输出对生成程序。HGCNN 以层次式预测候选代码串，由此可以使用标准的搜索技术来构造程序。应当注意，该模型仅使用随机生成的程序进行训练，因此可被视为一种无监督学习的方法。我们证明，文中所提出的方法可以生成程序，从简单的 Swap 到更复杂的循环和分支（比如找到一串数组中的最大值）。我们还展示了使用该方法，在实现诸如 Bubble Sort 等嵌套循环程序时取得的不错结果。将 LSTM 等作为比较的基础，新方法的预测精度有了显著的提高。

田渊栋在《深度学习没有解决的理论问题》里表示，这篇论文将算法的输入输出的结果抽取特征后，送入卷积神经网络文献中，再层次式地生成图像的经典框架，生成一张二维图，每一行就是一行代码，或者更确切地说，是代码的概率分布。有了好的分布，就可以帮助启发式搜索找到正确的程序。而神经网络的训练数据，则由大量的随机代码、随机输入及随机代码执行后得到的输出来提供——基本不需要人工干预，算是一种非监督的办法。

同时，田渊栋还在后面补充：“等到今年的 ICLR 的文章一公布，随便翻一翻就找到了七篇计算机自动生成（或者自动优化）代码的文章。打开一看，引论里全在描述同样的动机。”

那这个动机就是什么？

“让计算机自己写代码”。

一旦机器可以理解自己，一场颠覆性变革将会发生

随着越来越多的这类技术变得成熟，机器将会在各种各样的任务上超越人类。那么，机器为什么不能理解自己呢？我想这只是时间的问题。并且，一旦机器做到这一步，你会发现，在软件发挥重大作用的所有领域，将会经历一场颠覆性的变革。

人工智能的核心挑战之一便是教会机器学习新的程序、从既有程序中快速地编写新程序，并自动在一定条件下执行这些程序以解决广泛种类的任务。在各种人工智能问题中，程序以不同的面貌出现，包括运动行为、图像转换、强化学习策略、经典算法和符号关系等等。

现在，机器已经能够自动执行越来越多的程序，而且现在开源代码这么多，如果把历史上的代码都学习一下，很多编程场景应该是可以自动化的，至少可以大大减少人工。人类程序员尤其是初级程序员的工作被取代的可能性，也越来越大。

（来源：新智元、github，venturebeat 等，编译：新智元）

谷歌最新研究：深度学习检测糖尿病性眼疾

致力让更多人远离失明

来源：大数据文摘

糖尿病性视网膜病变（Diabeticretinopathy，下称DR）是增长最快的导致失明的原因，全世界有近4.15亿糖尿病患者处于这种危险之中。如果早期发现，可以治疗该疾病; 如果没有及时发现，它可能导致不可逆的失明。不幸的是，在世界上糖尿病非常普遍的许多地方没有能够检测该疾病的医学专家。

在北京时间11月30日凌晨，谷歌团队在其blog上宣布，在美国医学协会杂志（JAMA）刚刚发表的一篇论文中，他们提出了一种能够解释视网膜照片中的DR迹象的深度学习算法，潜在地帮助医生在资源有限的情况下筛选更多的患者。

谷歌团队相关负责人称，他们希望通过机器学习，更好的帮助医生识别有这样需要的患者，特别是弱势人群。

以下为谷歌相关团队负责人关于该研究的介绍：

几年前，我们几个人开始思考是否有一种Google技术可以改善DR筛选过程的方法，特别是利用机器学习和计算机视觉方面的最新进展。在今天发表在美国医学协会杂志（JAMA）的文章“用于检测视网膜眼底照片中的糖尿病性视网膜病变的深度学习算法的开发和验证（ Developmentand Validation of a Deep Learning Algorithm for Detection of DiabeticRetinopathy in Retinal Fundus Photographs）中，我们提出了一种能够解释视网膜照片中的DR迹象的深度学习算法，潜在地帮助医生在资源有限的情况下筛选更多的患者。

检测糖尿病性眼病的最常见方法之一是让专科医生检查眼后部的照片（图1），并对疾病存在和严重程度进行评估。严重性由存在的损伤的类型（例如，微动脉瘤，出血，硬渗出物等）确定，其意味着眼睛中的出血和流体泄漏。解释这些照片需要专门的培训，在世界上许多地区没有足够的合格分级师来筛选出每个有此疾病风险的患者。

图1：用于筛选DR的视网膜眼底照片的示例。左侧的图像是健康的视网膜（A），而右侧的图像是具有可引起的糖尿病性视网膜病变（B）的视网膜，因为存在许多出血（红斑）。

我们与印度和美国的医生密切合作，创建了一个128,000张图像的开发数据集，每个由来自54名眼科医生团队中的3-7名眼科医生进行评估。该数据集用于训练深层神经网络以检测可引起的糖尿病视网膜病变。然后，我们在两个独立的临床验证集上测试算法的性能，总共约12,000个图像，以7或8个拥有美国专业委员会认证的眼科医生中的大多数意见作为参考标准。选择用于验证集的眼科医生是从原来的54名医生中正确率教高的眼科医生。

在图2中示出了算法和眼科医生在9,963图像验证集上的性能。

图2.在由9963个图像组成的验证集上，存在可引起的糖尿病性视网膜病变（中度或更差的糖尿病性视网膜病变或可疑的糖尿病性黄斑水肿）的算法（黑色曲线）和八个眼科医师（彩色圆点）的性能。图上的黑色菱形对应于在高灵敏度和高特异性操作点中，算法的灵敏度和特异性。

结果表明，我们的算法的性能与眼科医生的性能一致。例如，在图2中描述的验证集上，算法具有0.95的F-Score（综合灵敏度和特异性的度量，最大值为1），算法性能略高于我们所咨询的8个眼科医生的F-Score中值（0.91）。

这些都是令人兴奋的结果，但仍有很多工作要做。首先，虽然用于评估我们的算法的常规质量度量结果是鼓舞人心的，我们正在与视网膜专家合作，以定义甚至更强大的参考标准，可用于量化性能。此外，我们在本文中证明的2D眼底照片的解释只是导致糖尿病眼病诊断的多步骤过程的一部分。在某些情况下，医生需要使用3D成像技术，光学相干断层扫描（OCT），详细检查视网膜的各个层。将机器学习应用于这种3D成像模式已经在DeepMind的同事的领导下进行。在将来，这两种补充方法可以一起使用，以帮助医生诊断更多的眼科疾病。

具有高精度的自动DR筛选方法有很大的潜力，以帮助医生评估更多的患者，并且快速地将需要特殊帮助的人发送给专家。我们正在与医生和研究人员一起研究世界各地的筛查过程，希望我们能够以最有利的方式将我们的方法整合到临床工作流程中。最后，我们正与食品药品监督管理局（FDA）和其他监管机构合作，在临床研究中进一步评估这些技术。

考虑到深度学习的许多最新进展，我们希望我们的研究只是众多引人注目的例子之一，证明机器学习能够更广泛地帮助解决医疗成像在医疗保健中的重要问题。

来源：大数据文摘（ID:BigDataDigest），编译：Aileen 魏子敏

【重磅】谷歌发布 Zero-Shot 神经机器翻译系统

AI 巴别塔有望成真（附论文）

来源：新智元

【新智元导读】谷歌今日更新博客，介绍了谷歌神经机器翻译系统重大更新，实现了用单一模型对多语种通用表征。这种新的模型体积不仅与多语言翻译模型一样，参数相同，而且速度更快、质量更高。不仅如此，系统还实现“零数据翻译”，也即能够在从来没有见过的语言之间进行翻译。这意味着传说中的“巴别塔”有望成真。【进入新智元公众号，在对话框输入“1123”下载论文】

（文／Mike Schuster，Melvin Johnson，Nikhil Thorat）过去10年中，谷歌翻译已从仅支持几种语言发展到了支持 103 种，每天翻译超过了 1400 亿字。为了实现这一点，我们需要构建和维护许多不同的系统，以便在任何两种语言之间进行转换，由此产生了巨大的计算成本。神经网络改革了许多领域，我们确信可以进一步提高翻译质量，但这样做意味着重新思考谷歌翻译背后的技术。

今年 9 月，谷歌翻译改为启用谷歌神经机器翻译（GNMT）的新系统，这是一个端到端的学习框架，可以从数百万个示例中学习，并在翻译质量方面有显著提升。不过，虽然启用 GNMT 的几种语言翻译质量得到了提升，但将其扩展到所有 103 种谷歌翻译支持的语种，却是一个重大的挑战。

实现零数据翻译（Zero-Shot Translation）

在论文《谷歌多语言神经机器翻译系统：实现零数据翻译》（Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation）中，我们通过扩展以前的 GNMT 系统解决这一挑战，使单个系统能够在多种语言之间进行翻译。我们提出的架构不需要改变基本的 GNMT 系统，而是在输入句子的开头使用附加的“token”，指定系统将要翻译的目标语言。除了提高翻译质量，我们的方法还实现了“Zero-Shot Translation”，也即在没有先验数据的情况下，让系统对从未见过的语言进行翻译。

下图展示了最新 GNMT 的工作原理。假设我们使用日语和英语以及韩语和英语之间相互翻译为例，训练一个多语言系统，如动画中蓝色实线所示。这个新的多语言系统与单个 GNMT 系统大小一样，参数也一样，能够在日英和韩英这两组语言对中进行双语翻译。参数共享使系统能够将“翻译知识”（translation knowledge）从一个语言对迁移到其他语言对。这种迁移学习和在多种语言之间进行翻译的需要，迫使系统更好地利用其建模能力。

由此，我们想到：能够让系统在从未见过的语言对之间进行翻译吗？例如韩语和日语之间的翻译，系统并没有接受过日韩之间翻译的训练。但答案是肯定的——虽然从来没有教过它但，新的系统确实能够生成日韩两种语言之间合理的翻译。我们将其称为“零数据”（zero-shot）翻译，如动画中的黄色虚线所示。据我们所知，这还是首次将这种类型的迁移学习应用机器翻译中。

零数据翻译的成功带来了另一个重要的问题：系统是否学会了一种通用的表征，其中不同语言中具有相同意义的句子都以类似的方式表示，也即所谓的“国际通用语”（interlingua）？使用内部网络数据的三维表征，我们能够看见系统在翻译日语、韩语和英语这几种语言时，在各种可能的语言对之间进行转换（比如日语到韩语、韩语到英语、英语到日语等等）时，内部发生的情况。

上图中的（a）部分显示了这些翻译的总体几何构成。图中不同颜色的点代表不同的意思；意思相同的一句话，从英语翻译为韩语，与从日语翻译为英语的颜色相同。我们可以从上图中看到不同颜色的点各自形成的集合（group）。（b）部分是这些点集的其中一个放大后的结果，（c）部分则由原语言的颜色所示。在单个点集中，我们能够看到日韩英三种语言中，拥有相同含义的句子聚在一起。这意味着网络必定是对句子的语义进行编码，而不是简单地记住短语到短语之间的翻译。由此，我们认为这代表了网络中存在了一种国际通用语（interlingua）。

我们在论文中还写下了更多的结果和分析，希望这些的发现不仅能够帮助从事机器学习或机器翻译的研究人员，还能对于语言学家和对使用单一系统处理多语言感兴趣的人有用。

最后，上述多语言谷歌神经机器翻译系统（Multilingual Google Neural Machine Translation）从今天开始将陆续为所有谷歌翻译用户提供服务。当前的多语言系统能够在最近推出的16个语言对中的 10 对中进行转化，提高了翻译质量，并且简化了生产架构。

商业部署后，实现技术上的突破

正如前文所说，今年 9 月，谷歌宣布对部分语种启用谷歌神经机器翻译（GNMT）的新系统，并在几种率先使用的测试语种（包括汉语）翻译质量方面得到了显著提升。下面的动图展示了 GNMT 进行汉英翻译的过程。首先，网络将汉字（输入）编码成一串向量，每个向量代表了当前读到它那里的意思（即 e3 代表“知识就是”，e5 代表“知识就是力量”）。整句话读完之后开始解码，每次生成一个作为输出的英语单词（解码器）。

要每一步生成一个翻译好的英语单词，解码器需要注意被编码中文向量的加权分布中，与生成英语单词关系最为密切的那个（上图中解码器 d 上面多条透明蓝线中颜色最深的那条），解码器关注越多，蓝色越深。

使用人类对比评分指标，GNMT 系统生成的翻译相比此前有了大幅提高。在几种重要语言中，GNMT 将翻译错误降低了 55%-58%。

不过，当时也有很多研究人员认为，当时谷歌翻译取得的“里程碑”，与其说是技术突破，不如说是工程上的胜利——大规模部署本身确实需要软硬件方面超强的实力，尤其是想谷歌翻译这样支持 1 万多种语言的商业应用，对速度和质量的要求都非常的高。但是，神经机器翻译的技术早已存在，借鉴了语言和图像处理方面的灵感，是多种技术的整合。

现在，只用了大约 2 个月的时间（论文首次上传到 arXiv 是 11 月 14 日），谷歌翻译和谷歌大脑团队就实现了技术上的突破——让系统在从未见过的语言对之间进行翻译，也即所谓的“zero-shot translation”。

不仅如此，谷歌研究人员还在论文最后做了分析，新的模型代表了实现一种“国际通用语”模型的可能。有评论称，这可以说是实现“巴别塔”的第一步。

谷歌神经机器翻译系统架构

就在几天前，国外研究员 Smerity 在他的博客上发布了一篇分析谷歌神经机器翻译（GNMT）架构的文章，在 HackerNews、Reddit 等网站都引发了很多讨论。

Smerity 在博文中指出，GNMT 的架构并不标准，而且在很多情况下偏离主流学术论文中提出的架构。但是，根据谷歌特定的需求，谷歌修改了系统，重点保证系统的实用性而并非追求顶尖结果。

【论文】谷歌的多语言神经机器翻译系统：实现 zero-shot 翻译

【摘要】我们提出了一种使用单一神经机器翻译（NMT）模型，在多语种之间进行翻译简洁而优雅的解决方案。不需要修改谷歌现有的基础系统模型架构，而是在输入句子的前面加入人工标记（token）明确其要翻译成的目标语言。模型的其他部分（包括编码器、解码器和注意模型）保持不变，而且可以在所有语言上共享。使用一个共享的 wordpiece vocabulary，这种方法能够使用单一模型实现多语种神经机器翻译，而不需要增加参数，相比此前提出的方法更为简单。实验表明，这种新的方法大部分时候能提升所有相关语言对的翻译质量，同时保持总的模型参数恒定。

在 WMT' 14 基准上，单一多语言模型在英法双语翻译上实现了与当前最好技术相同的结果，并在英德双语翻译上超越当前最佳的结果。同时，单一多语言模型分别在 WMT'14 和 WMT'15 基准上，超越了当前最佳的法英和德英翻译结果。在用于生产的语料库上，多达 12 个语言对的多语言模型能够实现比许多单独的语言对更好的表现。

除了提升该模型训练所用的语言对的翻译质量之外，新的模型还能在训练过程中将没有见过的语言对相互联系起来（bridging），表明用于神经翻译的迁移学习和零数据翻译是可能的。最后，我们分析了最新模型对通用语言间表征的迹象，还展示了一些混合语言时会出现的有趣案例。

编译来源：

https://research./2016/11/zero-shot-translation-with-googles.html

http:///articles/2016/google_nmt_arch.html?

来源：新智元、Google Research，作者：Mike Schuster (Google Brain), Melvin Johnson (Google Translate) and Nikhil Thorat (Google Brain )，编译：李静怡

你是个什么东西？

谷歌逆天黑科技现在就可以告诉你。

今天我们再来讲讲谷歌的黑科技。。

前不久，托尼刚跟员工们介绍过谷歌推出的世界上首台搭载 Google Tango 技术的手机 Lenovo Phab2。。就是那个有四个摄像头的手机。。

还有我们熟知的模块化手机 Project Ara，智能家庭管家 Google Home，以及手势操作设备 Project Soil等等。。

（Project Soil）

当然，谷歌除了自己经常开发各种各样的黑科技，他开源的代码以及芯片也给很多的研究人员带来了巨大福利。

最近苏格兰圣安德鲁斯大学的研究人员基于谷歌 Project Soil Alpha 开发工具包，研制出了一个更加逆天的黑科技——

RadarCat。。

简单的说，RadarCat 可以识别你拿的到底是什么东西。。

一块木头。

（看图片红色圈圈内显示的内容）

还是一块橡皮擦。。

杯子里装的是水？

芬达还是可乐。。

这是一个苹果，那么它到底熟了木有？

还有，这个橘子，到底酸不酸？？

识别手机型号以及手机的基本信息。

甚至连手机的正反面都知道。。

简直神了，没有什么是他不知道的。。

RadarCat 的基本原理和一般的雷达差不多。

RadarCat内置了 Project Soil 芯片，这些芯片会发射特定的电磁波，当物体进入这些波的范围时，内置传感器可以从物体发射的特定的能量图案中获取物体的数据，例如形状，尺寸，材料等等，再结合深度学习算法识别出特定的物体。

而且把 RadarCat 和智能设备结合起来，还能开发出很多好玩的东西。。

比如想知道现在几点了？？

手机放在手背上就可以直接显示时间。。

肚子饿了怎么破？？

放在肚子上马上打开外卖App。。

要出门了。

往大腿上一放，谷歌地图就默默打开了。。

天冷了赶紧戴上手套。

手机也立即转变为手套模式。。

恩，当然，这些都是要我们提前关联好的。。

说了这么多，RadarCat到底有什么实际的用处呢。

最简单的，垃圾分类回收。。

帮助盲人识别物体。。

商店里快速识别商品类型。。

未来的使用场景远比我们想象的要多。。

不过，目前的物体识别准确率还有待提高，还需要不断的进行学习，而且对很多的混合物体识别率较低，比如铝合金外壳识别为铝。

看到没有，我们一直幻想的甚至连想都不敢想的东西，谷歌正在一步步帮我们实现，就是不知道我们什么时候可以翻过那道墙。。

来源：屎塔克工业（ID:stk404），作者：托尼

谷歌上马神经网络

百名PhD人工处理数据

搜索“世界上最快的鸟是什么？”谷歌会告诉你：“游隼。根据 YouTube，游隼被记录下最高 389 km/h 的时速。”这的确是正确答案，但它并非来自于谷歌的数据库。当你输入这个问题的时候，谷歌搜索引擎找出了一个描述世界上五种最快鸟儿的 Youtube 视频。然后它只把最快的“一种”鸟儿的信息提取出来，不提及另外四种。

这是谷歌搜索最新的技术进展。为了回答这些问题，谷歌需要借助深度神经网络。作为 AI 技术之一，它不仅正在重塑谷歌搜索引擎，还在革新谷歌全套人工智能服务。其它互联网巨头当然也受到波及，例如 Facebook 和微软。

深度神经网络是一种模式识别系统。它能通过分析海量数据，学习如何处理特定任务。这个例子中，它学会了怎么在网络上的长篇文字中找出相关的一句或一段话，然后提取其中的要点呈现给你。

移动端谷歌搜索刚刚上线这种“句子压缩算法”（sentence compression algorithms）。这个对人类来说很简单，但对传统的机器来说很难的任务，终于能被 AI 系统完成。这说明，深度学习正在促进自然语言理解这门艺术（理解并回应人类语言）的发展。

谷歌研发产品经理 David Orr 说：“对于“句子压缩”，你不得不使用神经网络算法，因为这是目前我们发现的唯一方法。”

为了训练神经网络算法，谷歌在全世界聘用了约百名语言学博士处理数据，对它们人工筛选。事实上，谷歌的系统是从人类那里学习，怎么在大段文字中提取有用信息。而这过程需要一遍遍地重复——这是深度学习一个很大的限制。雇佣大批语言学家不停地筛选数据既麻烦又极其昂贵，但短期内谷歌没有别的办法。

“黄金数据”和“白银数据”

谷歌也使用过期的新闻来训练 AI 问答系统。这使 AI 逐渐理解，新闻标题是如何对文章主体进行归纳的。但这并不意味着谷歌不需要成批语言学家了。他们不仅示范句子压缩，还要对语句的不同部分做标记，以帮助神经网络理解人类语言是如何工作的。David Orr 把谷歌语言学家团队处理的数据称为“黄金数据”，过期新闻则是“白银数据”。“白银数据”作用不小，因为它的体量很大。但价值最大的还是“黄金数据”，它们是 AI 训练的核心。语言学家团队的负责人 Linne Ha 透露，在可见的将来，语言学家队伍仍会继续扩大。

这类需要人工辅助的 AI 学习便是“监督学习”（supervised learning），目前，神经网络都是这么运作的。有时候公司会把这个业务进行众包，有时候它会自发地进行。比方说，全世界的网民已经为数百万的猫咪照片添加了“猫咪”标签，这会让神经网络学习识别猫咪变得很简单——训练数据已经处理好了。但很多情况下，研究人员们别无选择，只能自己一次次为数据添加标签。

深度学习初创公司Skymind 的创始人 Chris Nicholson 认为，长远来看，人工标注数据是不可行的。他说：“将来一定不会是这样。这是极度枯燥的活儿。我想不出比这更无聊的 PhD 工作了。”

监督学习的缺陷远不止如此：除非谷歌聘请所有语言的语言学家，否则这个系统无法在其他语言中运转。现在，语言学家团队的工作横跨了 20 至 30 种语言。谷歌必须在将来的某一天，采取更自动化的 AI 训练方式，即“无监督学习”（unsupervised learning）。

到了那时，机器将能够从未经人工标注的数据中学习。互联网上海量的数字信息可以被直接用于神经网络学习。 Google、Facebook 和 OpenAI这样的巨头们已经开始这个领域的研究，但它的实际应用仍然非常遥远。现在，AI 学习仍然需要幕后的大批语言学家队伍。

（

（来源: cnbeta网站，via wired）