达摩院重修"巴别塔" 文 | 史中 刘慈欣在小说《乡村教师》里,有这么一段描述:
看到这里,我心头一紧。。。 姑且不论在大刘心中 5B 文明比 2B 文明强多少。重点在于:外星人说的有道理啊,我们不就是些只能靠超低带宽的语言交流的沙雕残疾生物么。。。人类这个创业团队一点点从古猿集团剥离,用了一百万年才“独立上市”。我们仰仗的全部家当:“听说”“读写”“思考”,全都和语言能力相关。 幸亏我们“身残志坚”,在渺小之余还意外赢回些许尊重。
人类果然是个不知天高地厚的狂妄物种啊。 这个魔幻的剧本一旦打开,就再也停不下来了。2018年底,一则预测击中了人们的神经: 语音人工智能将在特定领域通过图灵测试。 这是啥意思?这意味着人工智能马上就成为世界上第二个会“说人话”的物种了。 想想看,你和妹子煲了五分钟电话粥,可能都根本分辨不出她到底是个人还是机械。这将带来一场伦理革命:未来我们不仅把人工智能当做合作伙伴,也会把它们当做爱或恨的对象。人类稳固万年的情感边界将第一次松动。 发布这条预测的,不是民间科学家,而是大名鼎鼎的达摩院——阿里巴巴挑战前沿科学的骑士团。 很多人都会回想起2017年马云在云栖大会上振臂一挥,豪掷千亿组建达摩院的热血沸腾。而欣赏一部史诗,决不能只看它的封皮。他的况味藏在每一行诗句的光影里。
接下来中哥还得用“语言”这种低效的模式,慢慢讲给你听。 (1)脑洞+脑洞+脑洞 按照惯例,先跟中哥开几个脑洞。
你有没有想过这是为什么?因为你是“听”到的道理,而不是用一根电线直接怼到你大脑传输进去的完整信息,语言传递的不是全量信息。 脑洞一:语言和电线是一样的,他们从本质上来说都是“脑脑接口”。 给你一分钟,闭上眼睛理解一下。 你可以想象每个人的大脑都是一汪深邃的湖泊,他们之间若要连接,需要挖一道水渠,就像下面这样: 这个水渠,就是我们的语言。(这回你理解为啥说话又叫沟通了吧)然而,语言携带的信息量很少,就像水渠的宽度非常窄,很难把一个湖里的水瞬间全部灌进另一个湖里。 脑洞二:为了更高效地沟通,语言实际上是把信息进行了极高的压缩。 每个人都会把脑海里综合视觉、触觉、嗅觉、味觉、环境、常识、专业知识和彼时心境综合起来形成的汹涌思路压缩成一段语言说给接受者,而接收者听到之后,在自己脑海里把这些语言信息结合自己的视觉、触觉、嗅觉、味觉、环境、常识、专业知识储备和当时的心境加以还原,这个过程完成,听话者才理解了说话者的意思。 这个压缩比率有多大呢?每秒人脑可以处理的信息是400部高清电影,而每秒语言的信息量只有几k大小,差距几十万倍。所以,如果你的语言是这颗豌豆,那么脑补出来的内容就是这个篮球。 脑洞三:巨幅压缩会伴随巨大的信息损失。由于每个人的感官和知识储备不同,在补全的过程中就会出现一定歧义。 特别明显的一个例子就是:过年你和来串门的熊孩子讲不要乱动自己珍贵的手办,结果他完全理解不了你在说什么。直到他把模型弄碎一地,你抓着他的腿往树上一顿抡。有了这次完整的体验之后,他的知识结构里才会添加一项特别具体的禁忌。 情侣之间吵架,女生哽咽着说:你不懂我!这根本不是无情无耻无理取闹,实际上这时她已经一语道破了人类的生理极限。 脑洞四:机器理解人话的过程中,最重要的一个障碍就是:“歧义”。 人类可以根据自己所有的感官采集到的实时信息和巨量的知识储备在大脑里解压对方的语言,但是机器远没有人这么敏感的嗅觉触觉视觉,更没有人的常识知识图谱,所以它们把语言中压缩的信息进行还原时,所出现的“歧义”就会像火山喷涌那样多。 半个世纪以来,所有自然语言处理技术的目的都可以归纳为:消除歧义。(在机器的精神空间中,一句话对应且只对应一个意思) 我说这么一大堆的目的,是为了让你理解:人能听懂人已经靠脑补+幸运了;让机器听懂人,我只能说这是个奇迹。 说到这,中哥多补充一些背景知识。
你可能觉得人机交互的方法变来变去,捉摸不定。但事实上,它至少呈现了两个永不回头的趋势:
虽然在未来脑机接口有可能实现超大的带宽,但是不可否认,语言仍然是人类千万年进化形成的最高效的“天然接口”,占据了无可替代的“技术生态位”。目前人工智能语音交互被公认为“下一代人机交互技术”。 这种和人类命运息息相关的科技研究,正是达摩院的菜。 不久之前,我见到了这一领域的两位大神——达摩院语音实验室的老大鄢志杰和达摩院语言技术实验室的老大司罗。
像很多达摩院的大神一样,鄢志杰和司罗也不是普通的科学家,他们是“有故事的科学家”。 (2)上山下乡 如果你像欣赏雕塑大卫那样欣赏达摩院,你就会发现达摩院的躯体很有意思。 达摩院下设机器智能、数据计算、机器人、金融科技、X实验室几大分支,几乎全部和人工智能相关。这样浓重的配比,和达摩院的传承不可分割。 举个例子,达摩院中领衔机器智能班底的金榕和蚂蚁金服首席科学家漆远,他们都是当年阿里巴巴最神秘的机构——iDST——的创世团队。 金榕 iDST,全称是“数据科学与技术研究院”。当年马云高呼的“DT 时代”,其中的D和T,都被放进了 iDST 的名称里,可见它被给予了多重的期待。 说到 iDST,不能绕过理想主义者王坚。人们对王坚筚路蓝缕创立阿里云的那一趴故事耳熟能详津津乐道。其实,王坚同样是 iDST 的构想者。在他的最初设想里,iDST 更像是对标 AT&T 贝尔实验室、微软亚洲研究院的纯研究机构。它的目的无比明确,就是“确立阿里巴巴集团在未来数十年技术领先地位”。 王坚 2014年,阿里巴巴大旗高擎,一众人工智能领域的学界大牛聚义 iDST 的磅礴气势仍然历历在目。 然而,马云在三年后达摩院成立时曾经这样说:
这段话背后,涵盖了 iDST 三年间的命运转折。 由于 iDST 的学术研究和具体业务场景有一些分离,造成了 iDST 的“空转”。顶级大牛们每人开着一个梦幻超跑,却要在现实的胡同支脉里穿梭,苦闷可想而知。 iDST 历史上著名的浴火重生由此开始。 2015年 iDST 被分入阿里巴巴的各个部门。漆远率领一众人马进入蚂蚁金服,金榕率领一众人马进入淘宝搜索,初敏和鄢志杰率领的 iDST 语音部门留在阿里云。明眼人都能看出来,这是阿里巴巴生态内部人工智能最肥沃的几块战场。 正如1968年毛主席大手一挥,知识青年上山下乡。历史没有假设,但广阔天地,毕竟大有作为。这一次技术下沉,给淘系、阿里云和蚂蚁金服都带来了一场深远的革命。(甚至这场革命的意义到现在都没有完全被人认知)
2016年,阿里巴巴 CTO 行癫重新在集团层面举起 iDST 大旗,大神们重磅回归。这一次,他们一扫所有的质疑,手中握着荣光。王坚感慨:“iDST 又回来了!”诚然,理想不死,它只是需要重生。 行癫 直到这时,马云才有了组建达摩院的底气。 “手榴弹造得再厉害也造不出导弹。”马云的这句话,值得玩味。 2017年3月,阿里巴巴推出“NASA”计划,刻度为未来二十年,目标是从基础科学到应用科学的星辰大海。半年以后的10月11日,NASA 点燃了“一级火箭”——达摩院。iDST 的金身被重新熔铸,成为了达摩最坚硬的一部分。 至此,众神依次归位。 当年,iDST 是阿里巴巴最为神秘的部门之一,如今,iDST 的班底反倒成为了曝光最多的人。“自然语言处理”,也从当年 iDST 皇冠上的明珠,变成了如今达摩院的硬核主战场。 它不小心标记了一项技术的成人礼,也见证了一代技术人的沧海桑田。 马云 (3)从零开始 鄢志杰毕业于中国语音识别的黄埔军校中科大,不知为何看到他总有一种看到战狼吴京的错觉。。。 鄢志杰 2015年2月,鄢志杰从微软亚洲研究院加入阿里巴巴 iDST ,负责组建万众期待的语音团队。彼时正赶上轰轰烈烈的上山下乡运动,两个月后,他就进入了阿里云的编制。 语音科学家的终极目标是让机器通过语音交互的方式融入人类协作网络,但鄢志杰面前的现实过于骨感。用他的话说,阿里巴巴在这项技术上技术储备是“一张白纸”。而那个时候,百度的语音搜索已经成为标配,而微信的语音消息已经可以长按转成文字。 面对阿里巴巴巨大的实用主义思潮,鄢志杰并不拒绝,甚至有点小激动。他决定摸着石头过河。 第一步,起码先得给人工智能装一个耳朵。 他盯上了客服妹子。。。 2015年初,为了应对业务爆炸式增长,阿里巴巴的电话客服人数达到了几万。几万客服人员直接面对淘宝天猫的用户,如果他们服务质量不合格,会带来非常不好的用户体验。(参考六六和京东那次事件) 所以,语音技术团队就用自己的技术把客服对话全部做语音识别,然后利用语义分析自动检查里面是否出现了不当用语。这波骚操作大获成功,一下提高了几万客服的平均服务质量。 第二步,就得为人工智能安装一张嘴。 这一次,他又盯上了客服。。。 2015年下半年,iDST 悍将漆远已经进入了蚂蚁金服,他和语音团队一起定义了一个巨大的新场景:让人工智能来代替部分客服,用语音回答用户的问题,从根本上减省人力成本。 这就要求语音团队开发一套非常基础的能力:TTS 语音合成技术。简单来说就是让机器发出和真人无异的声音。 这项技术在2015年年内就落地蚂蚁金服。2016年,语音交互技术被用到 AliOS 手机、斑马智联网汽车、智能电视机上。 第三步,就是让人工智能听得更准,说得更好。(这是个相当漫长的过程) 比如2017年,天猫精灵发布。它从一开始就搭载了一个神奇的功能:声纹支付。你用自己的声音,就可以让天猫精灵帮你充话费买东西,而天猫精灵听到别人的声音,就会拒绝付款。从这项技术衍生开去,天猫精灵还可以识别家里不同人的声音,从而为他们推荐个性的内容。 站在历史的时间轴上,直到这一时点,达摩院才真正成立。 实际上,达摩院成立,并没有改变语音实验室的研究内容。我问鄢志杰,那你感觉到最大的变化是什么? “决心。”他说。“阿里巴巴要做自主研发核心技术的决心。” 达摩院成立 比鄢志杰早半年加入 iDST 的司罗,是一位标准的学界大咖。从打游戏开始接触计算机,一直做到了普渡大学终身教授。(下次家长再阻止你打游戏,你就说我的偶像是司罗。) 在美国学校“吃了八年粉笔末”之后,司罗决定回国加入阿里巴巴。他的理由是:在学校里研究一个新的算法,有20个学生来做评测就已经算是豪华阵容了。而在阿里巴巴研究一个新的算法,会有上千万真实世界的体验和反馈。 于是,他成为了 iDST 语言技术实验室的领头人。 司罗 “学以致用”是司罗的信条,这恰好也和阿里巴巴的实用主义精神相契合。司罗团队用了五年时间,搭建起两座技术金字塔: 第一座技术金字塔,名叫自然语言处理平台(NLP),有“帮你选择合适内裤”的功效。 简单来说,这套系统有三大功能:把任何一段话拆分字句,提取其中的信息,理解其中的意义。 举几个实际的例子:
司罗说,仅仅 NLP 基础技术平台,每天在阿里内部就会被四百多个部门调用两万亿次。可见它的职责之重。 第二座技术金字塔,名叫机器翻译平台,有“帮土耳其人买中国辣条”的功能。 翻译的用途当然很多,但是在阿里巴巴内部,跨境电商是“最有商业价值”的战场。 如果一个土耳其用户,想要在电商上购买中国的零食,需要和卖家聊天。但他是不可能看懂中文的。对于这种对话的翻译,不是简单地说明白就行,还要特别讲究“信达雅”。 比如卖家说:
要把这话翻译成土耳其语,那得把人工智能累哭了。但司罗和团队的技术正在把它变成现实。 话说回来,谁让你叫“达摩院”,达摩院可是禅宗初祖菩提达摩面壁开悟的地方。如果不做这种挑战人类极限的事情,那就别叫达摩院,干脆叫幼稚园得了。。。 阿里巴巴的同事帮我找了一张“英俄互译”的截图 (4)面壁者 走得更远的人,背包也更重。 2017年10月10日,你搜索“达摩院”,结果是少林寺。2017年10月11日,你搜索“达摩院”,结果是阿里巴巴。一瞬间,世界开始用新的标准审视达摩院的科学家。 成为达摩院诸神一员,意味着每人面前都有两堵墙。一堵墙是技术极限,另一堵墙是商业实践。 在鄢志杰眼里,技术是一只高速飞行的蝙蝠,而商业就是反馈和矫正方向的超声波雷达。他举了两个例子:
下图就是上海地铁购票机,亲测还挺好用的。 你可能没想到,达摩院的大神们用顶尖的人工智能技术,最后解决的却是实际应用中鸡零狗碎的小问题。
金榕一语概括了技术和商业的相爱相杀。 其实跟着达摩院大神们的节奏,我们已经窥探到了“自然语言处理”中科学钻探的最深处。 1、如何像人一样“听清”。 传统意义上的语音识别,人工智能只有一个耳朵。但在一个真实的公共环境中,只靠一个耳朵是远远不够的。 而鄢志杰想在这个耳朵旁边再安装上眼睛。正如人一样,我感觉到谁在对我说话,一定会把脸转向他,从而让耳朵获得最有针对性的声音。 正是基于这个“多模态语音交互”的理念,他才为上海地铁购票机装上了摄像头,配备了可以定向收声定向降噪的一组麦克风。这一套系统可以感知它身处什么环境、谁在和我说话,在说什么,等等一系列精准地信息。 鄢志杰把它用在了咖啡点餐机上,在真实的嘈杂环境中,机器用49秒时间点了34杯咖啡,作为对比,人完成这些事情却用了2分37秒。 这是当时的视频 2、如何像人一样“说清”。 机器模拟人声,这就是非常著名的技术 TTS。 TTS 是机器人通过图灵测试的关键一环。哪怕机器人对你所有的问题都对答如流,但是声音被你识破了,它还是会在图灵测试中失败。 而 TTS 是个深坑。各种最前沿的技术方向正在混战,谷歌、亚马逊,还有国内的 BAT 都在这篇混战的战场中。 鄢志杰告诉我,通过最新的 Knowledge Aware TTS,一个机器模拟声和原声相比较,已经从80-90%的相似度,提高到了95%的相似度。这意味着,你需要特别仔细地判断,才能知道电话那头究竟是人还是机。 在阿里云上,有一个小 Demo,你无论输入什么文字,萌妹子都能没羞没臊地给你读出来,而你丝毫感觉不出这是机器声。你可以去试试。 https://ai.aliyun.com/nls/tts (不允许外链,你把链接复制到浏览器,绝对值得一试) 3、如何像人一样“思考”。 在最开始中哥曾经提到,人在大脑里会“解压”语音,解压的过程中绝对性地依赖自己对于世界的“知识图谱”。 要想让机器在大脑里像人一样理解人话,必须要对这个世界进行非常精准的建模,形成像百科全书一样的知识图谱。 这条长征路,达摩院已经迈出了第一步。
当然,这几页维基百科相比现实世界的通用知识图谱,还只是大海中的一滴水。 这就是为什么达摩院的预测中会强调:语音人工智能将在特定领域通过图灵测试。 快递行业,就是其中一个“特定领域”。
但这还远远不够。 “建立一个有初中、高中知识图谱的通用人工智能,不仅是阿里巴巴面临的挑战,也是全世界面临的挑战。这个庞大知识图谱的定义和学习,需要很多代计算机科学家很多年的努力。”司罗说。 科学家不能贪杯,因为前路还有星辰大海。 (5)重修“巴别塔” 在文章的前半部分,其实中哥埋了一个伏笔。 我说语言和电线一样,都是“脑脑接口”。现在让我们顺着这个脑洞继续推演。 如果把人类文明看成一个整体,那么每个人的大脑都是一个计算节点,这个整体其实是由无数大脑组成的“脑联网”。由于他们之间的连接使用了语言(包括文字)通路,带宽极低,姑且可以称为“脑联网1.0”。 在计算机出现之后,我们在人体之外复制了一套网络,那就是由每个计算机连接而成的“互联网”。 而我们通篇在讨论的“人机交互”,从本质上来讲,就是把“互联网”融入“脑联网”的历史进程。 如果按照这个逻辑思考下去,我们可以推演未来一百年脑联网的后续版本:
阿西莫夫在《基地》系列小说里,描述了一个名叫盖娅的星球。 在这个星球上,所有的生命,人类、动物、植物、有机物和无机物之间都可以分享自己体内的资料和记忆。他们思想联通,共享喜怒哀乐,连死后都可以留存自我意识。 这,也许就是脑联网3.0。 如此你会明白,达摩院诸神所研究的,哪里是“让土耳其人买中国辣条”,“49秒内点34杯咖啡”,“买粉内裤之后给你推荐红内裤”这样的小事,他们是在为“下一代人机交互技术”一刻不停地积累实战经验,这不仅是未来十年的硬核,也将是人类进化史上重要的一环。 《圣经·旧约》中记载,人类为了对抗上帝“洪水降临”的誓言,联合起来修筑通天大厦“巴别塔”。上帝为了阻止人们的计划,降临神迹,瞬间把人们的语言变成千种万种。于此,人们难以相互理解,四散流亡,巴别塔终成废墟。 如此看来,今天达摩院正试图重修“巴别塔”。 从当年马云为了天下没有难做的生意而创建阿里巴巴B2B平台,到为了让中国人建立信任机制的支付宝,到为了人人平等享受计算力的通用计算平台阿里云,到为了迈进万物互联的 IoT 赛道,到试图用同一种语言连接全人类的达摩院。 你可以诟病阿里巴巴心态过度自信,也可以吐槽阿里巴巴动作不够优雅,但你唯独不能说阿里巴巴不够勇猛。
面对未来,好奇的孩子总是这样说。 巴别塔 再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友, |
|