Blog搜索在应用层与传统的baidu为代表的图书馆搜索有所不同。后者以精准资料获取为目标。根据blog posts的内容与结构特征,blog搜索更侧重信息的时效特征,以发掘群体正在谈论的、关注的主题为手段,力图反映社会生活正在发生的变化与趋势。 目前blog搜索可分为四类,一、以国内的8fang、feedsearch、奇波搜索 为代表,手工设定基于BSP列表的搜索范围,辅助以用户提交RSS或blog地址,除体现时效与相关度外在搜索结果上与百度等图书馆搜索并无实质差别。 二、利用搜索技术搭建的内容门户,例如:bolaa.com 解决blog信息分散,抽取精华信息满足漫无目的之读者浏览习惯。三、对posts的内容与结构进行深入分析,以国外的Technorati和 IceRocket为代表。通过对links、Tag的分析,将blogging作为群体思想、行为的风向标,反映现实社会的变化趋势。四、日报模式,以megite,memeorandum为代表,这是相关性搜索引擎,对特定的blog列表进行实时监测,通过追踪posts内的链接,挖掘blogger之间的交流脉络,并以对话的形式呈现。 绝大部分blog分散在BSP中,大量相同主题的个人posts没能以集中的方式形成社会性的影响力。blogging作为个体行为不以媒体为目的。但聚合后的blogging具有社会化的媒体效应,这与社会化网摘的实现过程有相似之处。 基于搜索技术搭建博客社区是解决问题的方法之一,并为blogger在加强与读者间互动、形成广泛人际关系圈等方面提供帮助。 而从另一角度观察,blog搜索是以用户产生的内容为目标的众多垂直搜索技术应用的分支。blog、社会化相册(flickr)、大众点评、分类广告等是用户产生内容的代 大部分blogger并不想通过写blog使自己成名人,但更多的关注与交流是能够促进作者的原创。 用户内容产生于以交流为导向的创作过程中,这有可能聚合出社会化效应,这与传统门户所提供的内容具有明显区别。用户产生的内容是自给自足,是人们目的与需 求的主动描述,获致用户需求与满足用户需求同步发生,这比传统门户在观测用户需求后,进而提供内容满足需求更具优势。 blog同论坛一样蕴藏着数量巨大、分散的优质内容,高效集中的阅读方式能够帮助用户便捷的获取信息,利用内容吸引流量这是“入口”的作用。 内容广泛 Blog所记录的内容广泛,bolaa拥有16个大类(社会 军事 科技 商业 思想 情感 生活 文化 图片 互联网 旅游 体育 教育 娱乐 随笔 播客),每个大类还包含若干小类。几乎涵盖了传统新闻网站的所有信息类别。 link是blog的灵魂 blogger在posts中广泛应用超链接,超链接串连分散的posts形成不易察觉的脉络,跟踪反向链接帮助blogger发现与自己有关的blogs。构成posts评价体系基础。Technorati计算的方式被称为Net Attention,就是看有多少人链接了某用户的blog。 blog系统 以MSN Space 为例,包含的模块有:1、网络日志;2、照片;3、列表;4、音乐;5、档案文件;可能包含的内容有:1、个人描述;2、日记、评论;3、存档、分类;4、回复、trackback;5、好友列表;6、相册;7、mediaplay 播放列表;8、网摘收藏;9、文章转贴;10、Podcast;11、其他聚合内容。 主文章列表自动生成RSS,在其他blog系统中还会为分类文章、读者回复提供RSS输出,使读者能够以更细化的方式订阅内容。订阅某用户的RSS通常是指针对该RSS完成的。所以在某种程度上,blogger用户与缺省的RSS之间形成一一对应的关系,在第三方系统中例如:gougou,feedburner 中将用户之间的订阅关系作为人与人之间的社会关系描述出来。 目前越来越的互联网公司正通过各种服务(blog,点评,digg)或手段(搜索,建立用户关系与目的导向)获取用户产生的,具备足够规模效应的,不同数据类型(评论,blogposts,url,图片,书名,音乐)。用户产生的数据和网络行为包含更丰富和明确的用户需求描述与注意力趋向,但这些数据并没有以可直接利用的流量方式呈现,并且隐蔽在不可见的blog圈中。这有别于传统搜索与门户的广告模式。 对用户产生内容的利用,以tag,link,rss订阅关系,trackback回复关系,收藏行为,digg行为等的分析为基础,使blogger的社会关系网清晰可见,反映人们的注意力导向与需求趋势是进一步的应用。体现在以弥补个体注意力有限的日报模式(megite,memeorandum)与市场跟踪咨询模式(technorati)和集中阅读的信息入口模式(bolaa)。 在bolaa的服务介绍中,强调为blog作者带去流量并认为进而会产生更多的交流,但从排行的结果看,流量大的文章往往是转贴新闻,诱导blogger 过分关注流量,并不能促进原创,却会使转载文章数量增加。而转载文章只能引发读者评论,并不能促进blogger之间的交流,因为blogger之间是交 流是通过撰写blog实现的。 三、对posts内容中的链接,posts结构,tag进行分析,以Technorati和IceRocket为代表。通过对links、Tag的分析,获得群体思想、行为的风向标,反映现实社会的变化趋势。 technorati沿用了传统的page rank方式。作为统计方式。 在technorati中通过分析特定链接被作者引用的次数作为信息热门的评议标准。以此为基础在Popular中提供了新闻,书籍,电影的热门排行以及blog排行。 用户可自定义 watchlist 对自己感兴趣的关键字进行跟踪,而在tailrank中则是对个人订阅列表(opml)的热门排列,这样更实用,能够提高读者订阅的rss阅读效率。 technorati是即时性搜索引擎并发挥到极至,他的实时跟踪,可每1分钟刷新一次结果,与其将technorati归入搜索引擎,不如说他是一个实时跟踪引擎。 四、meme引擎,作为搜索一个活力十足的发展分支,这种日报模式,反映某个领域(技术、政治)的最新热门动态,类似google的新闻搜索。这类服务侧重将分散的blog舆论凝聚成媒体力量,当有突发事件出现时,这类服务会成为人们获取新闻的重要渠道。 问题 2、单纯搜索能够作为满足目的明确用户获取信息的需求,但不适应漫无目标的浏览。同时人们运用blog搜索的目的并不是为了获取精准资料,blog的写作 特点也决定不允许人们这样做。人们利用blog搜索更是想跟踪某一个主题的动态,实时了解正在发生的交流或事件。technorati的tag输出被广泛 订阅也说明了这点。 3、大多数blog搜索依然局限于满足精准资料获取,轻视搜索用户作为读者之间的交流,同时虽然搜索能够为blog带去流量,但无法将这种作用放大。 3、垃圾信息。technorati最新公布的调查数据显示,大约有9%的blog为spam。其中一些是由软件创建的blog或由软件自动发布posts。 4、一些支持多BSP的posts发布客户端提供嵌入式广告,广告链接是搜索分析link的干扰因素。 话题 2、为blog搜索引入用户系统 3、当blog圈能够清晰可见,职业流动、项目合作等能够在blog圈中展开。 4、搜索结果可提交主流网摘系统或显示该结果在主流网摘系统的收藏数量并作为结果排序的依据 5、关键字或Tag与blogger之间的对应关系,关键字或Tag对应的作者群或作者数 6、为主题提供backtrack地址,blogger可将自己的创作,发送到主题的创作区。 7、搜索时用户输入的关键字反映出人们的需求,也从另一个角度反映人们的注意力,关注趋向。 3、blog搜索与digg类服务之间的利益关系 目标 2、通过关键字或tag,link,将隐形的blog圈描述成清晰可见,并以圈为单位反映其中的相关主题(tag,关键字),圈中的作者。让读者送入自己关注的圈中,发现其喜欢的blog,或是以主题(关键字或tag)组织自己的阅读圈,创作圈,共享用户数据(为搜索结果提交的链接)。 3、联合其他网站为搜索结果的后续处理提供方便服务譬如网摘,digg,通过提供辅助服务,利用用户行为优化搜索结果排列。 4、将blog搜索引擎作为读者于blogger,blogger之间互动的桥梁 5、满足获知“谁谈论什么”的需求。 1、某个圈中,某个主题的脉络跟踪(RSS输出);2、以某个搜索结果出发反向追踪作者所属于的圈子,以及该文章的相关主题 6、反映人们的注意力趋向,掌握人们潜在需求。为其他行业提供社会需求数据。 附:有趣的服务 |
|
来自: 鹰击长空 > 《blog搜索引擎》