分享

实现无监督学习?谷歌雇百名语言学家为训练数据“镀金”

 龙潭今语 2016-12-18

1 新智元编译

来源:

作者:Cade Metz

编译:刘小芹

新智元启动新一轮大招聘:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 

简历投递:jobs@aiera.com.cn

HR 微信:13552313024

新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。

加盟新智元,与人工智能业界领袖携手改变世界。


【新智元导读】自然语言处理大师 Fred Jelinek 有一句名言:“我每开除一名语言学家,我的语音识别系统错误率就降低一个百分点。”不过,在谷歌搜索 app 背后,则有一支超过百人的语言学家团队,专门为神经网络的训练数据“镀金”,提供“金数据”。监督学习下,需要人来处理的“金数据”不可或缺,而无监督学习仍很遥远。



试试向谷歌的搜索 app 询问:“地球上飞得最快的鸟是什么鸟?”,它会回答你:“游隼”。根据 YouTube,游隼的最快速度达到 389 公里/小时。


回答正确,但这个答案不是从谷歌内部的主要数据库中来的。当你问它上述问题时,谷歌的搜索引擎会精确定位到一个 YouTube 视频,这个视频是介绍地球上飞得最快的五种鸟类的,搜索引擎随后从视频中提取出需要的信息来回答你的问题,而没提其他四种鸟类。如果你问它:“光明节有多少天?”或者“Totem 持续多长时间?”,谷歌搜索引擎会知道这里的 Totem 是指太阳马戏团的演出,回答你它持续两个半小时,包括30分钟的休息时间。


谷歌搜索 app 能做到像这样回答问题是利用了深度神经网络。深度神经网络作为人工智能的一种形式,不仅改进了谷歌搜索引擎,甚至让整个谷歌公司,以及 Facebook、微软等其他互联网巨头改头换面。深度神经网络是一种模式识别系统,能够通过分析大量数据学习执行特定的任务。在谷歌搜索 app 的例子中,深度神经网络学会了从互联网上的相关网页中获取长句子或段落,然后从中提取出有关问题答案的信息。


谷歌搜索桌面版最近应用了这些“句子压缩算法”(sentence compression algorithms)。这些算法处理的任务对人类来说非常简单,但一直以来对机器来说是相当困难的,即自然语言处理任务。句子压缩算法显示了深度学习对自然语言理解的促进作用,以及理解并回应人类语言的能力。谷歌搜索部门的产品经理 David Orr 就谷歌的句子压缩研究说:“你需要使用神经网络,起码这是我们发现的唯一的方法,我们使用了我们拥有的所有最先进的技术。”


更不用说其背后还有一大批拥有高等学位的人。谷歌组织了一个由大量语言学博士组成团队,它把这支团队称为“Pygmalion”,使用这些语言学家人工筛选的数据来训练神经网络。实际上,谷歌的机器通过观察人类的做法来学习如何从长段落中提取相关答案,这个过程需要重复多遍,相当漫长。这些艰苦的努力同时证明了深度学习的能力和局限性。为了训练像这样的人工智能系统,需要大量的、由专业人士筛选过的数据。这些数据不容易得到,也不便宜,而且对这种数据的需求不会很快消失。


金数据和银数据


为了训练谷歌的人工智能 Q&A大脑,Orr 的团队还使用过去的新闻报道作为训练数据,让机器学习新闻报道的标题是如何凝缩整个长篇文章的。但谷歌仍然需要这样一支语言学博士团队。他们不仅做句子压缩的示范,而且要标记词类以帮助神经网络理解人类语言。Pygmalion 团队包括了来自全球各地的约100名语言学博士,Orr 称这支团队处理过的数据为“金数据”(Gold Data),而新闻报道之类没有处理过的数据为“银数据”(Silver Data)。银数据当然是有用处的,因为其数量非常大。但金数据是必不可少的。Pygmalion 团队的负责人 Linne Ha 说,这支团队还将继续扩大。


这种有人类协助的 AI 被称为“监督学习”,而且目前为止,神经网络也正是以这种方式起作用的。有时,企业可以以外包的方式做这项工作。例如,人们已经为数百万张猫的照片进行了标记,使得训练神经网络来识别猫相当容易。但其他情况下,研究人员别无选择,只能自己标记数据。


深度学习创业公司 Skymind 的创始人 Chris Nicholson 认为,从长远来看,这种人工标记的方式无法规模化。他说:“未来不应该是这样的。这种无聊到难以置信的工作,我可不想让我的博士生来做。”而且考虑到谷歌需要雇佣来自世界各地,使用各种语言的语言学家,不然这个系统就工作不了,这让深度学习的限制更加明显。Orr 说,当前谷歌 Pygmalion 团队使用的语言有20至30种。希望谷歌之类的公司最终能够实现自动化程度更高的 AI 形式,这种形式称为“无监督学习”。


无监督学习下,机器可以从未标记的数据中学习,谷歌、Facebook 以及马斯克创立的 OpenAI 等公司已经开始这方面的研究。但这仍有很长很长的路要走。今天,AI 仍然需要一个语言学博士团队。



原文链接:https://www./2016/11/googles-search-engine-can-now-answer-questions-human-help/


责编:XJ




新智元招聘


职位  运营总监


职位年薪:36- 50万(工资+奖金)

工作地点:北京-海淀区

所属部门:运营部

汇报对象:COO

下属人数:2人

年龄要求:25 岁 至 35 岁

性别要求:不限

工作年限:3 年以上

语  言:英语6级(海外留学背景优先)


职位描述


  1. 负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向

  2. 擅长开拓市场,并与潜在客户建立良好的人际关系

  3. 深度了解人工智能及机器人产业及相关市场状况,随时掌握市场动态 

  4. 主动协调部门之间项目合作,组织好跨部门间的合作,具备良好的影响力

  5. 带领团队完成营业额目标,并监控管理项目状况

  6. 负责公司平台运营方面的战略计划、合作计划的制定与实施


岗位要求


  1. 大学本科以上学历,硕士优先,要求有较高英语沟通能力

  2. 3年以上商务拓展经验,有团队管理经验,熟悉商务部门整体管理工作

  3. 对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解

  4. 具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力

  5. 具备优秀的时间管理、抗压能力和多任务规划统筹执行能力

  6. 有广泛的TMT领域人脉资源、有甲方市场部工作经验优先考虑

  7. 有媒体广告部、市场部,top20公关公司市场拓展部经验者优先


新智元欢迎有志之士前来面试,更多招聘岗位请访问新智元公众号。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多