分享

搜索:开启智能时代的新引擎

 老王abcd 2019-01-04

《书摘》欢迎您,订阅请到当地邮局,邮发代号:82—492  


互联网最初引起大众注意的时候,曾有这么一个说法:有了互联网,证明“无限猴子定理”的速度要比之前想象中的快许多。“无限猴子定理”由埃米尔·博雷尔提出。它说的是有一只猴子随机在打字机上打字,如果给它无穷多的时间,那么几乎可以肯定它能写出一篇莎士比亚的作品来。互联网的能力可以被视为同时有了几百万只猴子。网络的基础架构和巨大尺度使得任何事情都能被创建、被描述。


而在一定程度上,这已经发生了。网络曾经的着重点在于文字和图像,后来有了视频网站YouTube,可见视频也得到了重视。大家的看法是,1996年的互联网大概有10万个网站。当时有一个标准值,即一个网站约有441个页面,所以那时网络的规模约是4400万个页面,或者叫URL(统一资源定位符)。而如今,主流搜索索引器超过10万亿个URL是很正常的。将这个数字乘以每页平均的字数,很快我们就会得到一个让我们人类大脑无法处理的数字。


由于网络是基于文本文档构建的,所以我们最初将其分类的尝试很像是一种原始的杜威十进制图书分类法。雅虎就是一个由工程师维护的层级索引。对于某一个词语,有一系列的页面和网站与这个词语相关。这样的层级索引过去是、现在也仍然是通往广袤信息领域卓有成效的路标。如果你对阿根廷的旅馆感兴趣,层级索引可以带你访问一个网站,而那里列出了很多阿根廷旅馆的信息。


网络不断扩展,从成百上千个页面到数百万乃至数亿个页面。这些页面上使用的词语也扩展到了百万亿计,单纯的层级索引不再适用,于是就诞生了搜索。


但纠结之处在于,索引本身不再有任何意义。索引主要用来在一本书中找到对应于一个词语或者词组的页面。显然,如果一个索引包含了图书馆里所有书的话,它的用处就不大。比如我们查找“大象”这个词语,那就不得不浏览图书馆收藏的数百本书中的数千个结果。意识到这一点后,一场革命就不可避免了。


搜索工程师意识到,根据一本书和大象的相关性,可以对这些书加以排序。显而易见的是,有些书(比如一位和大象生活了20年的非洲作者写的书)相比另外一些书(比如说迪士尼的《小飞象》)包含更多有关大象的信息。但即便是在数字时代,创建这样一个排序的索引也会面临挑战。你怎么知道正给你做讲演的人是驯马专家?你怎能确信岩画向你展示了刺杀野牛的正确方式,在过去的很多情形中,权威性排序由人们对该来源的评述决定,而这样的评述通常基于这些来源是否能给予人们良好的信息,或者帮助他们成功地完成某项任务。随着搜索引擎所包含的人类知识越来越庞大,工程师开始寻找在数字系统中重现这一现实世界的方法。


谢尔盖·布林和拉里·佩奇设计了BackRub(返回触摸)算法,成立了谷歌公司。他们衡量的是每个查询返回结果的权重,该权重对应着每个结果与该查询的相关程度。通过找到一个页面中链接到另外一个网页的文本可以得到权重。A页面上的这些链接文本(称为“锚文本”)为搜索引擎提供了目标页面(B页面)可能的内容描述。如果足够多的、具有相似词源的词语都指向同一个页面——比如,有10000个页面都包含“大象”这个锚文本,且都指向另外一个网页(B页面)——那么引擎可以假定B页面很可能说的就是大象。我们结合实际生活来思考一下这个过程。如果有足够多的人告诉你洗手间在旅馆的二楼,你很可能会相信他们。而如果这些人中的大部分还是在该旅馆工作的人员,你对这个答案的信心会更强,因为这些人在这个话题上有更高的权威性。搜索的情形也是如此:不仅仅是有10000个页面告诉引擎B页面是关于大象的,这10000个页面的质量(或者说可信度)更是一个重要的衡量因素。


这些年来,工程师研究出了数百个其他变量,让搜索可以适应不断增长的网络。随着页面和链接数量的增加,我们的算法越来越擅长识别链接的含义和网页的其他特征,并确定当用户使用某一特定查询时他可能想要查找什么。


不管怎样,搜索这个领域还是相对简单的,因为我们以相对简单的方式去搜索东西。页面上的文字——偶尔加上图片——成为现实世界里各种思想的一个低精度的替代品。


让我们想象一下,搜索系统中有一系列描绘非常精确的对象,而且不是一两个,而是几百万个。2014年春天,必应在其知识库中有330亿个对象的描述,包括对差不多200万个酒瓶、80万部电影和12亿人的描述。最有趣的是,这些不同集合的数据(酒瓶集合以及提供瓶装酒的餐厅的集合)有共同的属性,因此系统功能开始变得更加明显。系统不是简单地理解一个对象,而是用这一知识去理解呈指数级出现的其他对象。


在数学和计算机科学中,我们将这种事物间的连接称为“图”。图就是一种表示事物间如何互联的简单方法。因此,斯特凡的社交图显示了他认识谁、他住在哪里(将一个地点和斯特凡关联)、他喜欢什么(将现实中的物体或事件与斯特凡关联)等。其中的挑战在于将分离的图加以连接,包括社交图(比如脸谱网和领英中包含的信息)、地理空间图、行动图、事件图,诸如此类,不一而足。


我们的任务是从这些图中找到共同之处,从而构造关于这个世界以及其中万事万物的完整场景。我们稍后再讨论这个问题。我们现在有能力在不同的图所提供的不同角度中看到某个事物,这个能力代表了一个深远的进步。记得在过去,那时的世界还只能用文字、视频或者图片来描述,如今每个人、每个物体都以数百种方式来描述:来自图片分享网站Flickr的云端照片,联网体重计,智能插座上的打印机消耗的电量……我们进入了一个任何东西都能以某种显性或者隐性的方式来表达自己的世界。一旦出现这样的情形,那么就会由机器来建立模型并开始重建现实,它们越来越有知觉,越来越能成为我们的智能助手,而不再是奴隶。


我们再来看看碎纸机。系统知道它是碎纸机,而且它的一个特性是顶部的开槽大小。同时,系统为一只猫及其相关的数百个特性建立了模型。系统是如何做到这一点的?“猫”这个名词已经由数百万个网页加以描述。不论那是向猫宣誓效忠而写下的诗篇,一系列可爱的视频,关于猫患上癌症的医学杂志,美国爱猫者协会的猫种类页面,还是其他数以千万计的页面之一,猫的概念已经以数千种形式得到了良好的建模。当今的主流搜索引擎所使用的系统竭尽所能地重构所有这些关于猫的描述,使之成为一个一致的整体。   

 

既然搜索引擎已经建立了“什么是猫”的知识,我们可以想象一下通过图来连接信息的威力。系统从我们的信息仓库关于碎纸机的描述中知道碎纸机的开口大小。系统基于其相关性,还知道一只猫身材的一般大小。然后因为有图的关联,系统就知道如果猫太大了,就无法放到碎纸机的开口中去——如果有人竟然要求它这么做的话。


也许你会不喜欢这个很古怪的例子,并且说:“你不应该将一只猫放进碎纸机,因为那样会把猫弄死的。你们是如何教育一台机器的?杀戮和当今确立的道德观相悖。”好消息是,随着系统越来越熟悉通过图得到的那些信息,系统知道一只猫放不进碎纸机开口的同一套算法可以用在我们的系统中建立道德观。一旦系统得知碎纸机是用锋利的刀片来完成工作,而刀片会切割肉体,肉体受到伤害会流血,而大量失血很可能夺取某个生物的生命,猫是活着的生命体,系统就很可能得到这样的结论(即使它同时认为猫可以被放进碎纸机):它会知道,它不应该将猫放进碎纸机中,因为那样的行为将和一只猫的正常状态(也就是活着的状态)不匹配。


除了保护猫之外,网络信息的丰饶还有别的好处。在上例中,图得以连接,于是系统可以理解它们所处的物理世界。它们还可以学习语言(比如“jaguar”既是一种动物又是一种车)。它们能理解关联和因果(烤炉是热的,生的鸡肉因为有细菌所以食用很危险,细菌在超过一定温度的环境下不能生存,烤炉能将鸡肉加热到那个温度),理解与系统建模的事物关联的动作(你可以买票去看电影,你可以在Shiro's餐厅吃寿司,你可以在Kindle阅读器上读书)。


当然,一定会有怀疑者。他们会指出,上述烤鸡肉的例子不过是一个逻辑三段论,而逻辑三段论可能对也可能错。毕竟,还有一种漂白的方式来杀菌。而如果我们用漂白的方式来处理鸡肉能达到第一个目标(杀死有害细菌).而且当时并没有其他的条件来阻止那个行动(比如人不能食用超过一定浓度的氯,否则会生病;生病的人要比健康的人更惨)。那么结果会是灾难性的。


数据的大爆炸既是机遇也是挑战。历史上任何时候都没有像今天这样,有着如此多的关于现实世界的数据,但数据本身并不是答案,反而会让我们溺水而亡。为了在搜索上前进一大步,达到梦寐以求的通晓境地,我们必须重新思考那些可以用搜索来解决的问题。搜索不再只是进行简单的数据检索工作,而应该成为我们的“铰链”,为人和数字之间的合作提供帮助。搜索应该是一个伙伴,一位老师,一位监护人。当你需要一位合作者的时候它会出现,但它也应该默默给你助推力,让你做出更好的决定,促使你采取能获得更好结果的行动。


搜索应该激发我们的想象力,而不应该阻碍我们去实践。它应该具备生产力,能引发越来越巨大的思想潮流,帮助我们自己的思想突破极限,而不是加以限制。


搜索是关于我们能够做什么的判断——它允许机会、意外和偶然的错误——而不是对已经发生的事件的描述。搜索有潜力成为现代社会中最有改革能力也最永久的礼物。


既然如此,这个世界看上去将会是怎样的呢?


(摘自《搜索:开启智能时代的新引擎》,中信出版社2017年5月版,定价:45.00元)




过刊订阅:


刊号:ISSN1005-2968/CN11-3039/G2   

总发行:北京报刊发行局   

零售订阅:全国各地邮政局   

邮发代号:82-492   定价:10.00元/期

地址:(100062)北京市东城区珠市口东大街5号  

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多