一个课
程论文,我把长久以来关于下一代搜索引擎的想法总结了下,希望和大家交流。 我只是入门水平,不正确之处望指正。下面贴上我的主要想法: 另 外推荐下文中提到的问答平台Quora.com,上面有个帖子很有意思 Could two smart CS PhD students create a search engine that unseats Google? How vulnerable is Google to this possibility? 需要邀请的站短我邮件地址吧。登录要翻墙用facebook一次,以后就不用了。 2.3 第三代搜索引擎的缺陷 基于链接分析的第三代搜索引擎呈现出以下几点局限性: 1,一个关键字查询词对所有用户呈现的搜索结果均相 同。但是实际上,比如一个计算 机用户搜索“树”可能指数据结构,与其他用户有很大区别。 2,Pagerank基于链接反映网页质量的方 法,只反映了网页制作者对于网页质量的评 价,并没有反映网页浏览着对于网页的评价。对于一些不善于进行链接优化的网站,虽 然内容可能很优 质,但是Pagerank可能并不高。同时,一些新网站很难在短期内提高 Pagerank,而一些擅长优化技术的网站会用大量垃圾链接作弊。 3, 基于关键词的搜索方法是建立在用户对于搜索有明确目的,并能清晰表述这种目的 的假设上。但是实际上,用户的搜索引擎使用水平参差不齐;并且由于存 在同义词等现 象,同一个搜索请求有不同的表示方法,搜索结果也大为不同。 4,现在的图像搜索,视频搜索,音乐搜索也都是基于关键字,如图 像Tag,音乐电影介 绍等,而文字对于这些信息的表现能力是很有限的,也不直观。 5,并不是所有有价值的信息都能被搜索引擎爬取到,比如 学校论坛,公司内网资料等 有价值的资料就无法被搜索引擎检索,这叫做Hidden Web现象;同时一些信息需要经过 人脑的加工,这方面 问答平台更能胜任。这部分不能被爬取的信息实际上占了人类所有 信息的大部分。 2.4 下一代搜索的趋势 此处的下 一代搜索即指第四代搜索引擎,一个主要的变化是从信息检索(Information Retrieval)到信息推送(Information Supply)的转变,信息推送将主要通过个性化搜 索和社交搜索实现。 第四代搜索将呈现出以下几个主要趋势: 1,个性化的搜索。 基于个人的网页浏览历史,搜索关键词历史,个人档案信息,使得 即使是同一个搜索关键词,也能为不同用户呈现不同的搜索结果。个性化搜索将基本解 决 2.3节提到的第一点局限。 2,社交搜索大大提高网页排序质量,其影响主要在两方面:a,网页浏览者(普通用 户)对于网页的评价(收藏行 为,评分,举报等)将可以作为排序的依据b,通过用户的 社交圈推测用户兴趣,通过用户间的不同程度信任关系为其提供不同权重的网页排序推 荐。 社交搜索也包括问答系统,用优质的设置提高信息的质量。社交搜索将基本解决 2.3节中提到的2,3,5中Pagerank和关键字搜索的局限。 3, 跨媒体搜索将打通文字,图像,声音,视频间的界限,使得用图像搜图像,用声音 搜声音,用图像搜视频等都成为可能。 本文的以下3,4,5节 就将分别从个性化搜索,社交搜索,跨媒体搜索三个主要趋势进 行探讨,并且尝试探讨基因搜索,移动搜索,情绪搜索。 3. 个性化搜索(Personalized Search) 个性化搜索是搜索引擎根据用户搜索的历史记录,包括用户所搜索的关键词,在搜索 结 果中的点击情况,在各个网站的访问情况,书签情况等,然后对这些信息进行分析,在 用户搜索新的关键词时,能返回更有针对性的搜索结果, 从而提高用户体验 个性化搜索主要存在两个难点:a,搜索引擎怎样才能准确猜测用户在特定时间的搜索目 的?人的需求是不断变更的,依据历史 记录完全可能得出相差十万八千里的猜测。b,如 何在利用用户信息为其提供个性化服务的同时,保护用户的隐私? 对于第二个问题,Yabo Xu[4]等人的文章中进行了有益的探讨。 首先,他们观察到两个有趣的现象: a,如果能够提供个性化的服务,用户愿意牺牲一些隐私。 b, 不一定需要用户隐私的细节来猜测用户兴趣,实际用更普遍的信息也可推测用户兴 趣。 4. 社交搜索 (Social Search) 随着Facebook为代表的社交网站兴起,互联网用户通过网络进行社交的时间大大增加, 并且在网络上留下了真实社交关系 的数字表达,这使得利用社交关系改善搜索质量成为 了可能。如第2节所说,社交关系将从三个方面大大改善搜索质量。 4.1用户对网 页评价改善搜索结果排序质量 用户对网页的评价包括主动评价和行为暗示。主动评价包括通过delicious收藏夹的评 分,评论等,行为暗 示则包括用户对网页的收藏等。Shenghua Bao[5]通过delicious收 藏夹的数据,进行了这方面的研究。 他们引入了两个 评价指标及相应算法:SSR(SocialSimRank)评价搜索关键词和用户对收 藏夹评价的关联性,SPR(SocialPageRank) 揭示了网页在浏览者中的热度。 他们的结果显示,通过SSR和SPR建立的搜索引擎,更容易发现优质但是外链较少的网 页。 比如这个网页http:///papers/introtopatterns//index虽 然内容很 少,但是Pagerank为0,而SPR为10,这样有效的发掘出了内容优质但是不善于搜索引擎 优化的网页,并且新网站也更容易 得到推广。 但是Shenghua Bao等人的这篇论文也存在一定的局限性,首先数据集delicious仅有用 户对网页的文字评论而没 有评分,因此无法对网页质量进行较大区分。其次没有考虑不 同的社交圈子对于网站的不同评价。另外可以做的提升就是对用户的评价进行opinion mining。 4.2 根据用户社交圈推测用户兴趣 一个社交圈子通常有相似的喜好,在社交关系的基础上,可以通过用户 的社交圈子来推 测其兴趣,从而有产生更准确的搜索结果。同时,用户之间可以建立信任关系,也可改 善搜索效果。信任关系的应用比如如下情 景:A是搜索引擎专家,B是一个本科生,B通 过twitter与A建立了信任关系,同时A又通过delicious对很多搜索引擎研究网站进行了 评 价和打分;因此,B可以声称在搜索引擎领域对A十分信任,从而在B搜索此领域关键 词时A推荐的网页将有更高的排序权重。 4.3 高效的问答系统 问答系统是另一个高效的获取信息的渠道,我们熟知的问答系统包括百度知道, AskJeeves等,但是他们主要存在两个 关键问题:1,问答者水平参差不齐,十分缺少领 域专家的参与;2,通过积分奖励的办法并不能吸引有价值的回答,经常看到的回答都 是互联网 上的复制粘贴,而缺乏思考。 现在我发现的最好的问答系统是美国Quora.com。 Quora的优势主要体现在:1,新用户需 要通过原有用户的邀请才能加入,并且通过 Facebook Connect登录,自然地在问答系统内形成了社交关系;同时由于初始用户都是 硅 谷的IT人士,因此从一开始就聚集了大量领域专家,保持了问答的水平。2,由于社 交关系的引入,即使系统并没有设置积分奖励,用户仍然十分活跃, 他们的参与完全是 因为对知识的渴望和分享的欲望,进一步保证了信息质量。3,良好的信息组织形式, 包括类似wiki的用户自主建立,编辑 Topic,每个Topic下有一系列问题,问题之间又通 过Related Question联系起来。4,在现有Quora的信息架构上,未来还可以利用机器学 习推测用户的话题喜好等。 5. 跨媒体搜索 (Cross Media Search) 传统的文本、图像、音频和视频分析与检索技术都是相互独立的,缺乏面向多种媒体的 跨 媒体搜索技术。这些多媒体信息应用的发展,要求信息搜索“必须是跨媒体的,也就 是说用户通过统一的界面和单一的提问,就能够获得以各种媒体形式存 在的语义相似的 结果。”为了提供支持多种检索方式和多模态用户信息需求的跨媒体检索,跨媒体搜索 技术研究涉及海量多媒体数据的智能处理、 多通道信息的融合和集成、快速准确的跨媒 体索引等关键问题研究和应用。最终,跨媒体将打通图像,文字,声音,视频的界限, 使得用图像搜图 像,用声音搜声音,用图像搜视频等都成为可能。 6. 其他趋势 Jeonghee Yi[8]等人发现在移动用户的搜索关键词通常在2.35个词,短于通过PC提交的 关键词。另外移动用户的搜索集中在娱乐领域(44%)及旅游 (7%)。移动互联网将是 新的科技周期,如何根据移动设备的特点优化搜索将是重要的课题。同时基于地理位置 的广告和聚会建议也大有可为。 生 物信息的发展方兴未艾,测定大众基因序列有可能在近10年普及。当基因信息也可用 时,个性化搜索将更有可为,比如根据基因的药物建议,餐饮建议 等。 NLP的发展有助于更准确理解用户搜索意图。 |
|