中文智能搜索引擎

鸵鸟 2007-01-30

展开全文

传统搜索引擎

　　1．搜索引擎的分类

　　互联网的迅速发展和广泛普及导致网上信息爆炸性增长。目前存在数量众多的搜索引擎，根据它们所基于的技术原理，可以把它们分成三大主要类型:基于机器人Robot的搜索引擎、目录式Directory（也叫做Catalog）搜索引擎和Meta元搜索引擎。

　　基于机器人Robot的搜索引擎　这种搜索引擎的特点是利用一个称为Robot（也叫做Spider、Web Crawler或Web Wanderer）的程序以某种策略自动地在互联网中收集和发现信息，由索引器为收集到的信息建立索引，由检索器根据用户的查询输入检索索引库，并将查询结果返回给用户。服务方式是面向网页的全文检索服务。

　　基于Robot的搜索引擎一般要定期访问大多数以前收集的网页，刷新索引，以反映出网页的更新情况，去除一些死链接，网页的部分内容和变化情况将会反映到用户查询的结果中，这是基于Robot的搜索引擎的一个重要特征。

　　该类搜索引擎的优点是信息量大、更新及时、毋需人工干预。缺点是返回信息过多，有很多无关信息，用户必须从结果中进行筛选。这类搜索引擎的代表是：AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google；国内代表为：百度、悠游、OpenFind等。

　　目录式Directory搜索引擎　这种搜索引擎以人工方式或半自动方式收集信息。目录式搜索引擎的数据库是依靠专职编辑或志愿人员建立起来的，这些编辑人员在访问了某个Web站点后撰写一段对该站点的描述，并根据站点的内容和性质将其归为一个预先分好的类别，把站点的URL和描述放在这个类别中。信息大多面向网站，提供目录浏览服务和直接检索服务。很多目录也接受用户提交的网站和描述，当目录的编辑人员认可该网站及描述后，就会将之添加到合适的类别中。

　　目录的用户界面基本上都是分级结构，首页提供了最基本的几个大类的入口，用户可以一级一级地向下访问，直至找到自己感兴趣的类别。另外，用户也可以利用目录提供的搜索功能直接查找一个关键词，该类搜索引擎因为加入了人的智能，因此用户从目录搜索得到的结果往往比从基于Robot的搜索引擎得到的结果更具参考价值，缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是：Yahoo、AOL、Lycos、Open Directory等。

　　Meta元搜索引擎　元搜索引擎（Metasearch Engine），被称为搜索引擎之上的搜索引擎。用户只需递交一次检索请求，由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎，并将所有查询结果集中起来以整体统一的格式呈现到用户面前。由于采用了一系列的优化运行机制，它能够在尽可能短的时间内提供相对全面、准确的信息，而且即使不能完全满足用户需求，仍可以作为相对可靠的参考源进行扩展搜索，因此成为备受推崇的检索首选入口。

　　一个真正的元搜索引擎由三部分组成，即：检索请求提交机制、检索接口代理机制、检索结果显示机制。“请求提交”负责实现用户“个性化”的检索设置要求，包括调用哪些搜索引擎、检索时间限制、结果数量限制等。“接口代理”负责将用户的检索请求“翻译”成满足不同搜索引擎“本地化”要求的格式。“结果显示”负责所有源搜索引擎检索结果的去重、合并、输出处理等。这类搜索引擎的代表是：ByteSearch、Mamma、MetaCrawler、Profusion等。

　　2．传统搜索技术的局限

　　信息丢失　一般来说，目录式的搜索引擎由于目录只在对站点的描述中进行搜索，因此站点本身的动态变化不会反映到搜索结果中来，对网站的描述也十分简略，其描述能力不能深入网站的内部细节，因此用户不能查询网站内部的重要信息，造成了信息丢失。

　　返回信息太多　基于机器人的搜索引擎由于应用了全文检索技术，能够解决对网页细节的检索问题。从理论上说，只要网页上出现了某个关键词，就能够使用全文检索用关键词匹配把该网页查出来，但是这又导致了它的缺陷——返回的信息太多。

　　信息无关　返回信息过多只是全文检索给人直观感觉到的问题。除此之外，它还有两个不很直观的深层次问题也给信息检索带来了不少困难。

　　很多情况下，用户很难简单地用关键词或关键词串来忠实地表达他所真正需要检索的内容，表达困难导致检索困难。

　　人类的自然语言中，随着时间、地域或领域的改变，同一概念可以用不同的语言表现形式来表达。因此，对同一概念的检索，不同的用户可能使用不同的关键词来查询。

　　这个两个问题造成的直接结果就是返回大量的无关信息。比如，“计算机”和“电脑”是同一类产品，但是搜索结果往往大不相同。

　　造成上述信息检索困难的原因的实质在于传统的搜索引擎对要检索的信息仅仅采用机械的关键词匹配来实现，缺乏知识处理能力和理解能力，也就是说搜索引擎无法处理在用户看来是非常普通的常识性知识，更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等等。

　　因此，结合人工智能技术的智能搜索引擎把信息检索从目前基于关键词层面提高到基于知识（或概念）层面，是解决问题的根本和关键。

　　智能搜索引擎

　　1．智能搜索引擎发展状况

　　智能搜索引擎是结合了人工智能技术的新一代搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识（或概念）层面，对知识有一定的理解与处理能力，能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。智能搜索引擎具有信息服务的智能化、人性化特征，允许网民采用自然语言进行信息的检索，为他们提供更方便、更确切的搜索服务。这类搜索引擎的代表有：尤里卡、问一问、21ilink、孙悟空、悠游等；国外代表：Ask jeeves、Google等。

　　2. 智能搜索引擎的技术

　　各个智能搜索引擎技术的实现各不相同、各有特点，但从实现智能搜索基本思路上是相通的。下面以尤里卡搜索引擎为例，简要说明一下技术实现。

　　知识库和信息库　知识库是实现智能搜索的基础和核心，知识库就像人脑里存放的知识。人脑是人们认知、理解世界和改造世界的基础。人脑所做到的不仅仅是对信息的接受，而是对信息的判断、提取、分析和概括之后形成自己的知识，然后保存到大脑中，成为下一次分析、概括的依据和基础。这样，人脑的知识就处在一种自增长的过程。人们掌握知识的多少，决定了人们认知、理解和改造世界的程度。知识库的形成与增长，就如同人脑知识的增长，也处于一种自增长自循环的状态，知识库的丰富程度也同样决定着检索能力的高低。

　　信息库就是互联网。互联网是一个巨大的、非结构化而且处于不停变化的信息空间。信息库可以起到两方面的作用。首先，信息库是知识库存在和发展的空间，知识库所做的其实就是对信息库的判断、提取、分析和概括，所谓知识是从信息来，就是这个道理。其次，信息库也是用户所要检索的内容，智能搜索引擎所做的就是通过知识库把用户的问题提高到知识（概念）的层面，然后利用这个知识（概念）检索信息库。

　　语义分析、知识管理和检索　要做到智能搜索还必须做到知识库和信息库的结合。要做到两个核心库的有机结合要做到以下三点：语义分析、知识管理和知识检索。

　　语义分析是分析用户语言的具体含义。它应该实现以下几个功能：整句分词、处理同义词、根据知识库分析关键词明确概念和语义及一定程度地丰富知识库。

　　知识管理主要实现知识库的自增长。前面提到，知识库的增长基础是对信息库的概括和提取，所以知识管理首先要做到对信息库的分析和概括，然后是对知识库的扩充。

　　知识检索是实现智能搜索的最后一环，通过前面语义分析结果，明确用户用意，对信息库进行知识（概念）层次的检索，在给出准确答案的同时，给出用户相关问题，从多方位对用户的问题进行回答。

　　3．智能搜索引擎的优点

　　搜索结果的准确性　由于采取了知识库为基础的语义分析，在进行检索过程中，采用的不是关键词全文检索，而是基于概念的检索。比如说当你输入“北京天气怎么样？”，传统搜索引擎返回的结果连小说都检索出来，因为小说内容包括“北京天气怎么样？”这句话。而智能搜索引擎，由于采取语义分析的方法，分析出北京天气这个概念，直接给出北京的天气情况预报。

　　搜索结果的范围定位准确　由于采用知识（概念）检索技术，明确和缩小了搜索范围，减少对无用信息范围的检索。比如上面的例子，智能搜索引擎只在天气这个范围进行检索，从而提高了检索效率，减少了无用信息。智能搜索引擎是以搜索结果准确、范围小为特点的。

　　搜索结果的综合性　由于采用了知识库，搜索引擎将给用户提供更全面、更综合和更合理的知识框架。在这里，信息检索只是信息服务的一部分。比如说当你输入“在北京怎么找工作？”，给出的答案不仅仅是给出“北京地区的招聘信息”，而且还给出“北京地区的人才政策”、“求职技巧”等信息。

　　搜索结果的智能性　所谓“智能来自知识”，有综合知识库作为背景，信息检索和导航服务将更智能。知识库中的知识有助于解决前面提到“表达差异”问题。例如，只要定义“计算机”、“电子计算机”、“电脑”是同义关系就可以消除用户由于使用不同的词表达同一概念而带来的检索困难。另一方面，知识库对用户的查询进行相关性联想，提供引导用户进行下一步查询的线索。这样一步一步地在与用户的交互过程中诱导用户“表达”出他真正想找的东西，从而实现对查询的智能导航。这种逐步求精的策略解决了信息检索“忠实表达”的难题。

　　4．智能搜索引擎的发展与应用

　　建立理论上完备的知识库是不现实的。这是因为人的知识、特别是常识性知识具有“数量”上的浩瀚无际，在“质量”上又有高度的不确定性和模糊性，要建立这样一个知识网络是极端困难的。

　　然而，这丝毫不会影响基于知识库的智能搜索技术的可行性和可操作性。这是因为，理论上完备的知识库虽然难以实现，但是我们可以通过降低求解目标的方法，针对具体的搜索引擎需求，建立相应的知识库（或称概念图），这里的知识库是对理论上完整知识库的一种近似，一种局部实现。针对某一领域、甚至某一站点所有网页所反映的知识来构造一个局部的小知识库是相对容易实现的。它的知识在数量和质量上虽然不能与理想的知识库相比，对具体搜索任务却是实用的。更重要的是，知识库里的知识可以在使用中不断改进，数量上不断增加，质量上不断提高。这是一个对知识进行训练的过程，可以通过人来完成，也可以使用机器学习等手段来实现。

(转帖)搜索技术发展及未来趋势
　　
陆元婕　飞侠

　　搜索技术仍不能满足需求
　　Internet的迅速发展和广泛应用导致了网上信息爆炸性地增长。据权威机构统计，网上约有数十亿的网页，甚至有些专家宣称网页总数已达5500亿，这一数字仍然在不断地快速增长。因此，如何在庞大的Internet上获得有价值的信息已成为网民日益关注的问题。搜索技术的出现为网民从Internet上快速找到所需信息带来了福音。搜索引擎是一种用于帮助Internet用户查询信息的搜索工具，它以一定的策略在Internet中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的目的。
　　1993年，Internet上出现了最早的Web浏览器Mosaic，次年Netscape推出了Navigator。浏览器的发展促使Web得到迅速推广，同时也推动了搜索引擎的发展。
　　早期的搜索引擎是把Internet中资源服务器的地址收集起来，由其提供资源的类型不同而分成不同的目录，再一层层地进行分类。人们要找自己想要的信息可按它们的分类一层层进入，就能最后到达目的地，找到自己想要的信息。这其实是最原始的方式，只适用于Internet信息并不多的时候。
　　随着Internet信息按几何式增长，出现了最早的真正意义上的搜索引擎——Lycos，它创建于1994年的春天，当时Michael Mauldin将John Leavitt的Spider程序接入到其索引程序中。随着Yahoo!的出现，搜索引擎的发展也进入了黄金时代，其性能也更加优越。
　　搜索服务提供者在研发搜索技术方面已经花费了大量的时间和精力，但是网民对于现有的搜索技术是否满意呢？
　　2001年，Roper Starch的调查指出，36%的Internet用户一个星期花了超过2个小时时间在网上搜索；71%的用户在使用搜索引擎的时候遇到过麻烦；平均搜索12分钟以后发现搜索受挫；搜索受挫中46%都是因为链接错误；绝大部分(86%)的Internet用户感到应当出现更有效的、准确的信息搜索技术。
　　另一项由Keen所做的调查显示，人们平均每天有四个问题需要从外界获取答案；其中31%的人使用搜索引擎寻找答案；平均每周花费8.75个小时找寻答案；53.3%的时间花在从旁人那里获得答案，29%的时间花在亲戚朋友身上，24.3%的时间花在销售商那里；网上查找答案的，半数以上都不成功；他们每周将花费14.5美元以上，以获取正确的信息。
　　从这些调查数据中不难看出，目前的搜索引擎仍然存在不少的局限性。传统的搜索引擎技术有哪些局限性呢？主要有信息丢失、返回过多无用信息及信息无关等几方面的局限性。造成上述信息检索困难的原因的实质在于传统的搜索引擎对要检索的信息仅仅采用机械的关键词匹配来实现，缺乏知识处理能力和理解能力，也就是说搜索引擎无法处理在用户看来是非常普通的常识性知识，更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等等。
　　这使得网民仍然在期盼更完美的搜索技术的出现。网民需要搜索服务提供者研制更完美的搜索技术来满足更快、更准、更方便的查询需要。是的，这些正是搜索技术发展的最终目标：跟上Internet的发展速度，为网民提供更准确的查询结果。下面将就目前几大新兴技术在搜索技术中的应用做展望，以设想更具完美的搜索技术的未来。
　　自然语言理解技术
　　随着社会的日益信息化，人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中一个引人入胜、富有挑战性的课题。从计算机科学，特别是从人工智能的观点看，自然语言理解的任务是建立一种计算机模型，这种计算机模型能够给出像人那样理解、分析并回答自然语言(即人们日常使用的各种通俗语言)的结果。
　　现在计算机的智能还远远没有达到能够像人一样理解自然语言的水平，而且在可预见的将来也难以达到这样的水平。因此，关于计算机对自然语言的理解一般是从实用的角度进行评判的。如果计算机实现了人机会话、机器翻译或自动文摘等语言信息处理功能，则认为计算机具备了自然语言的理解能力。
　　以自然语言理解技术为基础的新一代搜索引擎，我们称之为智能搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识（或概念）层面，对知识有一定的理解与处理能力，能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。因而这种搜索引擎具有信息服务的智能化、人性化特征，允许网民采用自然语言进行信息的检索，为他们提供更方便、更确切的搜索服务。
　　与传统的目录查询、关键词查询模式相比，自然语言查询的优势体现在:一是使网络交流更加人性化；二是使信息查询变得更加方便、快速和准确。现在，已经有越来越多的搜索引擎宣布支持自然语言搜索特性，但是要建立真正的基于自然语言理解的智能查询系统，还存在很多的技术难点。如：如何理解自然语言及所代表的实际含义；如何根据问题找出用户实际想要的答案；如何建立大规模知识库等。
　　目前，智能搜索引擎的研发主要有两大方向，其一是基于机器翻译技术，比如Google;其二是基于语义理解技术，国内有尤里卡、问一问，国外的主要代表是Ask Jeeves。
　　机器翻译(Machine Translation，MT)又称机译，它是利用计算机把一种自然语言转变成另一种自然语言的过程。智能搜索引擎在这一领域的研究将使得用户可以使用母语搜索非母语的网页，并以母语浏览搜索结果。
　　语义理解通过将语言学的研究成果和搜索引擎技术结合在一起，实现了搜索引擎对搜索词在语义层次上的理解，为用户提供最确切的搜索服务。
　　P2P对等网络
　　引发P2P革命的当推美国的Napster，2000年7月份的一场官司将Napster的声望推到顶点，用户数也在短短一年内激增至4000万，成为Internet史上一大奇迹。P2P是Peer-to-Peer的缩写，意为对等网络。其在加强网络上人的交流、文件交换、分布计算等方面大有前途。P2P被认为是Internet实现下一次飞跃的关键，但它将如何浮出水面仍然是个谜。长久以来，人们习惯的Internet是以服务器为中心，人们向服务器发送请求，然后浏览服务器回应的信息。
　　P2P所包含的技术就是使联网电脑能够进行数据交换，但数据是存储在每台电脑里，而不是存储在既昂贵又容易受到攻击的服务器里。网络成员可以在网络数据库里自由搜索、更新、回答和传送数据。所有人都共享了他们认为最有价值的东西，这将使Internet上信息的价值得到极大的提升。
　　P2P引导网络计算模式从集中式向分布式转移，也就是说网络应用的核心从中央服务器向网络边缘的终端设备扩散：服务器到服务器、服务器到PC机、PC机到PC机、PC机到WAP手机……所有网络节点上的设备都可以建立P2P对话。
　　P2P给Internet的分布、共享精神带来了无限的遐想，有观点认为至少有100种应用能被开发出来，但从目前的应用来看，P2P的威力还主要体现在大范围的共享、搜索的优势上。P2P技术的一个优势是开发出强大的搜索工具。P2P技术使用户能够深度搜索文档，而且这种搜索无需通过Web服务器，也可以不受信息文档格式和宿主设备的限制，可达到传统目录式搜索引擎（只能搜索到20％～30％的网络资源）无可比拟的深度（理论上将包括网络上所有开放的信息资源）。以P2P技术发展先锋Gnutella进行的搜索为例：一台PC上的Gnutella软件可将用户的搜索请求同时发给网络上另外10台PC，如果搜索请求未得到满足，这10台PC中的每一台都会把该搜索请求转发给另外10台PC，这样，搜索范围将在几秒钟内以几何级数增长，几分钟内就可搜遍几百万台PC上的信息资源。
　　基于P2P对等搜索理念的搜索技术会为Internet的信息搜索提供全新的解决之道。它使人们在Internet上的共享行为被提到一个更高的层次，使人们以更主动深刻的方式参与到网络中去。
　　XML可扩展标记语言
　　XML将使Web的搜索非常方便。XML可扩展标记语言是Web数据使用的通用语言,具有结构化、规范性、可扩展性及简洁的特点。XML 能让开发人员将来自各种应用程序的结构化数据传送给桌面以在本地计算和表示。XML 允许为特定应用程序创建独特的数据格式，它还是结构化数据从服务器到服务器传输的理想格式。XML是在超级分布式系统之间实现多数据集传输的一种手段。它同时可以使开发人员以更具价值的新型方式聚集和组合各种来源的数据。XML将成为Internet上最重要的基础性语言。
　　XML通过DTD定义了文档的词法、语法和部分语义，XML规定了文档的表现形式，而XLink和XPointer定义了文档之间的关系，从而为基于Web的各种应用提供了一个描述数据和交换数据的有效手段。如果说，HTML提供了显示全球数据的通用方法，那么XML进一步提供了处理全球数据的通用方法。XML继承了SGML的强大功能，又充分采取了HTML的“易用”原则。它实现了国际性的媒体无关的电子出版，使工业界能够定义平台无关的数据交换协议，特别是电子商务中的数据交换协议。资源标注、编目和描述是信息查找的基础，结构化的资源（XML）和资源的描述框架（RDF）互相配合，将大大提高信息查找效率。XML简化元数据的提取工作，从而协助人们寻找信息，并协助信息生产者和信息消费者的相互发现。如果说在网络的支持下，HTML语言解决了在异构平台间传送数据和文档，那么，基于XML的VRML和SMIL解决了在异构平台间传送感受的可能性问题。使用XML，人们可以利用设备的智能去访问不同的网站，并对信息进行集中。XML使我们迈向将控制信息的权利交给那些需要信息的人们。由于所有文件都以XML格式存在，所有的用户都可以方便地查找和使用其中的信息，任何规模的文化机构都可以使用相同的工具与资源。内容供应者、合作伙伴和信息内容消费者可以高效地沟通和共享信息，这样就创造出了一种全新的协同工作模式。
　　由于给网民提供更完美的搜索结果不仅仅需要新兴的技术支持，更涉及搜索技术的发展方向问题。下面笔者就搜索引擎的发展趋势谈几点个人见解。
　　更方便易用的搜索
　　搜索过程的方便易用，需要搜索服务提供更好的人机交互界面技术和关联式的综合搜索结果。
　　1．人机交互界面技术
　　人机界面技术的不同往往使得搜索引擎表现出不同的特色。当前搜索引擎涉及的人机界面技术主要有四类：搜索请求提交技术、搜索结果表现技术、搜索向导技术、搜索行为分析技术。
　　搜索请求提交技术中有几个很有用的技术，包括多语言查询技术、编码转换技术、模糊语义查询、精确语义查询以及采用自然语言的搜索请求提交界面。
　　搜索结果表现技术包括搜索结果的准确度及相关度、搜索结果的母语评价等。
　　搜索向导技术则纯粹是网站设计上的界面技术。它通过具有亲和力、易用的界面，即时的帮助来方便网民的搜索。
　　搜索行为分析技术的核心是跟踪、分析用户的搜索行为，充分利用这些信息来提高用户的搜索效率。搜索行为分析技术提高搜索效率的途径主要有两种:群体行为分析和个性化搜索。
　　2．关联式的综合搜索
　　以往的搜索经验大都是在甲网站找图片，到乙网站找新闻，到丙网站找股票资讯。这种方式十分麻烦而浪费时间。那为何不考虑将这些图片、新闻、股票等等各种有关联的信息整合在同一界面，让网民一次查询，全部满足呢？所谓关联式综合搜索就是这样一种一站式的搜索服务，它使得网民在搜索时只需输入一次查询目标，即可在同一界面得到各种有关联的查询结果。这项服务的关键在于有一架构建在XML基础上的整合资讯平台。
　　更精确的搜索
　　搜索引擎技术本身一个最重要的发展方向是提供更精确的搜索。要想大幅度地提高搜索引擎的效率和搜索结果准确度，应考虑这样几个方向：智能化搜索、个性化搜索、结构化搜索、垂直化搜索、本土化搜索等。
　　1．智能化搜索
　　准确的搜索应建立在对收集信息和搜索请求的理解之上，也就是说，必须处理语义信息。显然，基于自然语言理解技术的搜索引擎，由于可以同用户使用自然语言交谈，并深刻理解用户的搜索请求，因此查询的结果也更加准确。
　　2．个性化搜索
　　提高搜索精确度的另一个途径是提供个性化的搜索，也就是将搜索建立在个性化的搜索环境之下，通过对用户的不断了解、分析，使得个性化搜索更符合每个用户的需求，而不仅仅是准确。
　　3．结构化搜索
　　所谓结构化搜索，是指充分利用XML等技术使信息结构化，同时使查询结构化，从而使搜索的准确度大大提高。
　　4．垂直化专业领域搜索
　　由于社会分工的加大，网民从事的职业有很大不同，不同网民对信息搜索也往往有自己的专业要求。比如信息技术类从业人员最希望有面向信息技术的专业搜索引擎，金融证券从业人员则希望使用金融证券类的搜索引擎。从调查结果看：一半网民认为目前搜索引擎死链接太多，四成以上的网民认为目前的搜索结果中不相关信息太多，而专业垂直引擎可解决以上问题，它只针对某领域，可保证此领域信息的收录齐全与更新非常及时。另外，六成左右的网民认为面向某领域的搜索引擎非常或比较重要。
　　垂直类搜索引擎面向某一特定专业领域，专注于自己的特长和核心技术，保证了对该领域信息的完全收录与及时更新。因此，基于专业领域的“垂直搜索引擎”开始成为搜索引擎发展的一个新趋势。
　　专业化的搜索引擎在提供专业信息方面有着大型综合引擎无法比拟的优势。专业搜索引擎和专门信息搜索引擎所采用的基本技术同综合引擎一样，而且基本上都是成熟的技术（某些专门信息搜索引擎可能还需要一些特殊技术），它们的发展没有技术障碍，同时正符合了Internet发展的一个趋势：Internet将更专业化、分工更细。
　　5．本土化的搜索
　　世界上许多著名的搜索引擎都在美国，他们以英语为基础，完全按他们的思维方式和观点搜集和检索资料，这对于全球不同国家的用户来说显然是不适合的。各国的文化传统、思维方式和生活习惯不同，在对网站内容的搜索要求上也就存在差异。搜索结果要符合当地用户的要求，搜索引擎就必须本土化。
以上我们大致了解了一些新兴技术在搜索技术中的应用以及搜索引擎的发展趋势。随着搜索技术的不断完善与发展，我们有理由相信将来的搜索引擎一定会朝向更方便易用的人机界面，更准确的搜索结果方向发展。