配色: 字号:
基于标签的folksonomy机制研究——以CiteUlike为例
2013-08-20 | 阅:  转:  |  分享 
  
基于标签的folksonomy机制研究——以CiteUlike为例

刘向红1,2,宋文1

1(中国科学院文献情报中心北京100080)2(承德石油高等专科学校,承德,067000),

〔摘要〕在大量详实数据的基础上,以CiteUlike为例,对folksonomy的运行机制进行了实例解析,分析了CiteULike中标签、用户、资源之间的关系,并分析了标签之间的关系及其聚类特性,从而得出结论,folksonomy是web2.0环境下一种非常有效和实用的分类方式。

〔关键词〕CiteUlike;Folksonomy;标签;社会化标签系统

〔分类号〕G250

TheStudyoftheMechanismofFolksonomyBasedontags

——takeexampleforCiteUlike

LiuXiangHong1,2,Songwen1

,(TheLibraryofChineseAcademyofSciences,BeiJing100080)

2(ChengDePetroleumCollege)

Abstract:TakingexampleforCiteUlike,thispaperanalysesmechanismofFolksonomybasedonahostofdata.Patternsshowtherelationsamongtags,usersandresourses,discoverstheconnectionbetweenthetags,andauthordiscussesclusteringpropertyoftags,atlastthepaperdrawsaconclusionthatfolksonomyisaneffectiveclassificationmethodinweb2.0.

Keywords:CiteUlike;Folksonomy;tags;socialtaggingsystem

一、引言

Folksonomy是近年来流行于网络的一种大众合作的资源组织方式,是web2.0时代的一个重要技术辅助手段,它的特点是自由、共享和动态更新,能够迎合用户的需求,体现用户价值,发掘集体智慧,促进志同道合的交流,是名副其实的符合草根思维的草根分类法。国内对folksonomy的译法很多,如大众分类法,自由分类法,大众标注,分众分类法等,本文采用“自由分类法”的称谓。应用folksonomy的明星网站有国外的del.icio.us、Flickr、43Things、CiteUlike、Connotea等,国内的豆瓣网、天天网摘等。本文以CiteUlike为例,对社会CiteULike与del.icio.us很类似,同样是一款免费的社会书签网络工具,专门为学术研究人员提供组织学术文章的网站(在这点看来,CiteULike又像是一款私人的维基百科全书)。它可以帮助学术工作者分享,储存和组织他们正在浏览的文献形成个人资料库。支持Tags、RSS订阅、设定优先权、内容输出到BibTeX、EndNote文献管理系统和由BibTeX输入内容、并支持按Tags和作者查询以及用户组等服务。]

Citeulike使用简单,注册后无需安装插件,如果是PubMed、SD等学术数据库中的文章,收藏时点几下鼠标就可自动添加作者、期刊名、文章卷期、页码、出版商、摘要等信息,形成标准的引文格式。所有的这些工作均在浏览器中完成,不需要安装什么特别的插件。]

二、数据集

笔者通过GoogleReader,使用CiteUlike[3]提供的RSSFeed服务,抓取了CiteUlike网站2007年12月21日至2009年6月30日时间段以folksonomy作为标签检索的数据233条。去重后获取183篇文献,得到一组资源概况数据集,其中每条数据都包括:文献题名、作者、发表时间、文献出处、用户名以及标注人数。统计工作围绕这个数据集展开。

通过统计,可以看到,被标引最多的资源是ScottGolder和BernardoA.Huberman2005年发表的《TheStructureofCollaborativeTaggingSystems》,有246个个人用户、62个群用户都标引了该资源。被标注次数较多的资源和作者,说明其被关注程度较高,在某种程度上可视为有关folksonomy研究的核心资源和核心作者。

另外,笔者所获取83%的资源出版年限集中在2005年-2009年,2007年和2008年尤为集中,这与folksonomy一词在2005年开始在网络上出现有关,同时也说明,人们对近期出现的资源较为关注,越远期的资源关注度越低。

笔者还发现这些文献作者数量为2-4人的最多,占64%,作者为1人的仅占23%,5个作者以上的文献占13%,这表明,科学研究越来越趋向于合作,而非单打独斗。[4]

三、用户与资源的关系

表1基于folksonomy的资源及其对应的用户

标签名 出现次数 标引资源数量 资源对应用户数 用户标引次数 每名用户平均标引次数 最活跃用户贡献资源数量 folksonomy 530 183 1224 3662 2.99 53 笔者按照用户标注数量排序后得到一组“用户标注资源数量”数据集,其中每条数据包括:用户名,标注次数。表1显示,有1224名用户参加了这183条资源的标注活动,共发生了3662次标注活动,平均每个用户标注2.99次,平均每条资源被标注的次数是20.01次,标注活动最频繁的两个用户分别标注了53条资源和48条资源,共有24个用户的folksonomy标注行为超过20次。这说明近两年人们对有关folksonomy的研究还是非常关注的。

通过分析用户数目与标注行为数目之间的关系,笔者发现大多数的标注行为是由相对较少的用户产生的,标注资源数>20篇的用户数占用户总数的0.19%,他们占有了17.9%的标注行为数(即标注篇数);标注资源数为1篇的用户占了用户总数的56.9%,而标注行为数(即标注篇数)仅为总数的1.9%。用户与被标注资源数目之间的关系如图1所示:数量较少的用户标注行为频次高,而大多数用户的标注行为频次较低,呈现“长尾(Long-Tail)”现象,遵循幂律分布规律,也就是说,数量较少的用户贡献了大部分资源。[5]

图1标注行为与用户数关系图





四、标签与用户的关系

ThomasVanderWal、AdamMathes等多位学者均指出,标签的使用情况遵循幂律分布(PowerLaw):一方面,代表用户共同知识的一部分标签被多数用户使用,具有较高的使用频率;另一方面,存在大量“个性化”的标签,仅对少数用户甚至个人有意义,这些标签的使用频率很低,但在数量上却比成为“热门类目”的标签庞大很多。

笔者选取了本组数据中被标注次数最多的一篇文献《TheStructureofCollaborativeTaggingSystems》,统计了其2007年1月至2009年6月的标签使用情况,得到一组共现标签数据集,其中每条数据包括:用户、标签、标注时间。

表2《TheStructureofCollaborativeTaggingSystems》的标注情况

个人用户总数 群用户总数 使用标签总数 共现标签总数 每个用户平均使用标签 125 23 349 98个 2.35 表2显示,该文献在此时间段共被标注了148次,其中个人用户标注125次,群用户23次,共使用了349次标签,平均每个用户使用2.35个标签,出现的共现标签数为98个,还有10人未使用标签。

图2《TheStructureofCollaborativeTaggingSystems》标签使用情况





作者将数据集中标签的序号和标签使用人数两列的数据取值映射到坐标系中,标签的序号作为自变量x,标签的使用人数作为因变量y,用柱形图表现标签与标签使用次数的关系,图像呈现出明显的幂函数的特征。(图2)

排序在前几位的标签具有较高的使用次数,代表使用频率高的热门类目,但这样的标签是极少数,使用次数超过30的标签仅8个;随着标签序号的值增大,对应标签的使用次数减少,并且这一下降的趋势非常迅猛,使图像的前半部分具有很大的切线斜率绝对值;在接下来的一段取值区间中,图像经过一个短暂的过渡后,走势逐渐趋于平稳,图像的后半段分布的是使用频率低的标签,即使用人数为2或1的标签达到67个,占据本篇文献标签数量的68.37%,形成了一条基本与x轴平行的“长尾”,也就说大多数标签属于个性化标签,不代表用户的共识。

观察使用人数超过2的标签,它们中的一部分反映了用户的共识,如tagging和folksonomy,去除拼写错误和单复数形式,这两个标签的使用人数是85和38,分别占总标注人数的57.4%和25.7%,可以说,tagging和folksonomy就是用户对这篇文献的网络大众分类名称。

以上的数据分析验证了用户对标签的选择遵循幂律分布。这一特征与文献计量学中的齐夫定律(Zipf’sLaw)很相似。这类幂律分布的现象普遍存在于自然界和人类社会中,统计物理学家将这类现象称为“无标度现象”,即系统中个体的尺度相差悬殊,例如互联网、人际网,这些网络中不同节点所拥有的连接数遵循幂律分布。这类现象的形成依赖于两个机制:增长性和择优连接性。前者表示整个系统的规模并非保持不变,而是不断有新的节点加入;后者表示节点之间建立连接关系时,都倾向于选择已经拥有较多连接的节点,这就造成了一种“强者愈强”、“富者愈富”的结果,也即“马太效应”。现实世界中的众多网络系统也存在这种无标度,随着系统用户和资源规模的扩大,不断有新的标签进入系统;而用户在使用标签时由于受到社群的影响,会“择优”或“从众”选择,于是形成了标签使用的这种无标度现象。[6]

五、标签随时间的变化情况

在CiteUlike中,每个用户的标引记录按照时间先后顺序排列,这有助于了解用户标签随时间推移的分布情况。笔者选取了183条资源的用户中标注活动最活跃的两名用户ianturton和brusilovsky,分别提取了他们所有标签中使用率最高的前4个标签随时间变化的的情况,二者都是2006年开始有标注行为的,其标注行为如表3,然后借助Excel统计出这些标签的使用率随时间的增长情况,具体结果如图3—图4,其中横坐标代表时间,纵坐标代表该标签的使用率,而不同的标签则用不同颜色表示。

表3用户使用标签情况

用户名 标注资源数量 标签—使用率排名1 标签—使用率排名2 标签—使用率排名3 标签—使用率排名4 使用次数 使用次数 使用次数 使用次数 ianturton 1099 visualization semantic geography information-retrieval 183 131 112 112 brusilovsky 649 recommender

social-navigation information-retrieval tagging 107 71 70 70 图3用户ianturton的标签变化情况





图4用户brusilovsky的标签变化情况



在标签增长曲线中,线段的斜率代表标签使用率的增长速度。线段在某段时间内向上的斜率越大,表示该标签的使用率就增长越快;向下的斜率越大,表示该标签的使用率迅速减少,高位平行线段表示该标签在这段时间内使用率较高,呈匀速增长,而低位平行线段则表示该标签在这段时间内的使用率较低,用户很少使用,甚至可能没有使用。

(1)在每个用户的每个标签增长曲线中都存在一个顶点,说明在这个时间点,用户对标签的使用达到一个高峰,如用户brusilovsky在2007年对information-retrieval这个标签的使用达到顶峰,说明2007年的某个时间点,brusilovsky非常关注这方面的资源,或许对之在进行集中研究。

(2)有些标签在高位平行线段形成顶点后开始迅速向下,或形成低位平行线段,或继续下降,说明用户对标签的关注率在下降,如visualization这个标签,82%都是在2006年和2007年使用的,说明用户ianturton在这个时期对可视化这个专题的资源非常感兴趣,而2008年以后对之关注度明显下降。

(3)有些标签长期保持持续增长态势,如用户brusilovsky的标签recommender和tagging,说明用户对标签的关注率在持续提升。

这些现象表明,标签的生命周期具有阶段性,即用户研究问题的视角可能是不断转移的。若从特定标签的角度来看,则说明用户对它的使用率可能是集中在某一个或几个时间段内,在其余大部分时间内,用户对该标签所代表的问题关注度非常低,而对某些标签来说,用户对它们的关注则属于一次性的短期行为。若选取相同时间段来观察不同标签的斜率,可以发现,增长趋势越接近的标签,其相关性也越高,如图3中的标签semantic和information-retrieval。该现象可以从一定程度上反映出这些标签的共现频率较高的事实,有助于人们判断用户研究热点的变化情况。

六、标签之间的关系分析

在社会化标签系统中,标签之间存在一定的隐性关系,挖掘标签之间的联系,有助于更好地理解标签的语义和用户行为。共同标注某一资源的所有标签都互为共现标签,标签被用户使用标注同一资源的次数越多,其共现频率越高,相关度也就越高。标签的共现关系可以在一定程度上反映出标签之间的语义关系,如同义关系、层次关系等。[7]

1、标签共现强度表达了标签的相关度

笔者还是选取《TheStructureofCollaborativeTaggingSystems》2007年1月至2009年6月的标签使用情况,将所有标签按照使用次数排序,为了统计准确,在统计过程中合并了标签词汇的单复数形式以及明显的拼写错误,如folksonomy和folksonomies以及olksonomy(明显拼写错误),tag和tags、tagx,collaborative-tagging和collabrative-tagging等等,用Excel表绘制图5。图5是上述资源指定标签的频度统计排名分布图,横坐标为标签序号rank(将出现次数相同的标签合并得出),纵坐标为标签出现的频次与序号的乘积—fr。可以明显看出,标签的频度统计排名分布基本符合齐夫定律:C=fr(rank)

图5显示,在排名较高的部分,曲线相对平坦,即这几个标签的C常数(C=fr(rank)基本相等,这主要是因为:语义相近或重叠的常用词语(同义词或近义词)会在使用上存在竞争关系,或者说并列关系,如“tagging”、“folksonomy”和“tag”之间就存在这种关系。图中标注了频度最高的4个同现标签,我们定义这4个标签(认为这4个标签能集中地反映该资源的特征)为强共现标签,[8]即这4个标签共同出现的机会较高,关系密切相关度极高。对于某个特定的标签,其强共现标签频率分布显示出了与该标签联系密切的“词汇”。

图5folksonomy同现标签的频度排名分布图























2、共现标签之间的层次关系

在标注此文献的共现标签中,可以发现以folksonomy为中心,共现标签的关系呈几种层级分布:

从属关系,上位类:knowledge,socialsoftware,classification,web20

相关关系(同义词关系):tagging,tag,collaborative-tagging,socialbookmarking,social-tagging

并列关系,同位类:collaborative-filtering,collective_knowledge,semantic,ontology

通过分析特定的标签,从词汇关联角度可以发现有意义的知识模式和语义关联。

七、标签的网络聚类特性分析

大量的大型复杂网络都呈现一种特性——社团结构(CommunityStructure),即整个网络由若干个社团构成,每个社团内部的节点之间的连接相对非常紧密,但是各个社团之间的连接相对来说却比较稀疏。发现网络中的社团有助于更加有效地理解网络结构和分析网络特性,应用聚类分析来探测网络的社团结构是一种有效的方法。聚类分析是一种无监督分类,目标是将数据划分为有意义的簇(Cluster)或类,每个聚类簇中的成员之间具有较大的相似性,而聚类簇之间的成员具有较小的相似性。[9]

自由分类得以实现,主要是采用社群成员共同建立的标准来进行分类体系的建构。成员提交的标签可能千奇百怪,但系统很容易通过统计方法在这些关键词中发现最适合的元数据。自由分类的分类标准是—“对于同一内容,采用使用频率最高的一个或几个关键字标签来作为其分类元数据”。[10]

由图5容易看出,tagging采用的关键字使用的频率最多(85次),其他几个共现标签——tag,folksonomy,collaborative也有较高的使用频率,那么这几个标签可以作为这一资源的元数据标签。这种聚类方法实际上是通过自发过程选出满足大多数人需要的分类标签,与主流网络信息分类体系相比,可以更好地满足用户的需求,帮助用户更好地理解信息分类,从而更快更准确地找到需要的信息。这种有别于学科聚类、主题聚类的方式可以称为社群聚类,它是folksonomy机制的核心部分。[11]

这就进一步体现出folksonomy的体系是一种基于用户提交关键字的分类,它反应的是整个社群的群体意识倾向和知识背景,具有不同成员结构的社群对同一网络内容就可能形成不同的元数据标签。基于这种关键字的分类,可以凸显出社群成员关心的热点信息,形成一个特别适合本社群成员特点的信息分类体系。

八、结论

由上述分析我们发现:标签是用户在描述资源时自由选用的词汇,而folksonomy正是通过同一标签对不同资源和同一资源对不同标签的聚合作用来不断扩充主题(标签)和资源间的动态联系的。

1、在CiteUlike这样的社会化标签系统中,用户可以检索同一标签所标引的所有资源,揭示资源之间存在的内容相关性,反映通过标签发现新资源的能力;初步探索特定主题文献时,可以透过其它人的书目信息,类似滚雪球的方式,找出许多相关文献。

2、在滚雪球的过程中,可以发现引用收录次数较高的资源,则该资源相对可能较为重要,

而且有可能发现某一学科新的研究热点。

3、在滚雪球的过程中,可以学习其它收录者用何种标签(tags)描述这篇文献,可以帮助检索者进一步扩张或是限制自己的检索策略。

4、CiteUlike这样的社会标签系统可以通过计算,推荐资源的强共现标签作为用户标注资源时的参考,以便于按标签聚合资源,同时,为用户的标注行为和浏览行为提供了方便和效率。

5、CiteUlike这样的社会标签系统可以从资源角度聚合用户行为,即通过选定某资源,揭示标注过该资源的所有用户及其采用的标签,反映不同用户对同一资源的不同理解,帮助人们从不同角度加深对该资源的认识。[12]

6、CiteUlike可以按用户来聚合资源,浏览某一用户所有的标引活动,既可以反映该用户对CiteUlike的使用率及其研究热点的变化,又可以按照资源通过其URL来聚合标引了同一资源的用户,继而发现与之具有相同或相似兴趣的人,并可通过追踪他们对其他资源的标引过程来发现新的可能关联的兴趣及相应资源。

7、可以通过研究某一标签的共现标签,深化对用户知识认知的认识

综上所述,folksonomy这种定制化的灵活分类方法非常适合web2.0环境下因特网的信息特点,是一种非常有效和实用的分类体系。



参考文献:

[1]学术网络书签工具---CiteULike介绍[EB/OL].[2009-06-20]

http://www.xxc.idv.tw/blog/xxc/webtryit/academic_social_1.html

[2]个性化站点:CiteULike.org[EB/OL].[2007-06-20]

http://www.guwendong.cn/post/2007/site_citeulike_org.html

[3]CiteULike[EB/OL].[2009-06-30].http://www.citeulike.org/.

[4]MargaretE.I.Kipp,TaggingPracticesonResearchOrientedSocialBookmarkingSites[2009-03-20]http://www.cais-acsi.ca/proceedings/2007/kipp_2007.pdf

[5]刘知远等.中文博客标签的若干统计性质.中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集2007,533-539

[6]隆捷.基于标签的互联网自由分类法研究[学位论文].北京大学,2007.6

[7]王翠英.Folksonomies的结构模式研究.[J]现代情报,2008.(2):62-66

[8]王萍.基于自由分类法的elearning标签研究.[J]中国远程教育,2008(10):65-70

[9]王萍.基于自由分类法的e-Learning共现标签网络分析[J].中国电化教育,2008(1):99-104

[10]A.Capocci,G.Caldarelli,FolksonomiesandclusteringinthecollaborativesystemCiteULike,[2009-3-31][J/OL]http://arxiv.org/PS_cache/arxiv/pdf/0710/0710.2835v2.pdf,

[11]周荣庭,郑彬.分众分类:网络时代的新型信息分类法[J].现代图书情报技术,2006(3):72-75

[12]ConnoteaExplorer:PierreLindenbaum2006.Integragen[EB/OL].[2009-06-30].

http://lindenb.integragen.com/connotea.



作者介绍:刘向红,1969年出生,现工作于承德石油高等专科学校信息中心,副研究馆员,中国科学院文献情报中心在读研究生。发表论文9篇。

宋文,女,1961年生,中国科学院国家科学图书馆研究馆员,发表论文20篇

通信地址:承德石油高等专科学校信息中心,河北省承德市,邮编:067000

联系电话:(0314)2375655,13503148336

电子信箱:lxh468@sina.com,lxh468@163.com























10



















































Tagging

































folksonomy



Collaborative























tag

















献花(0)
+1
(本文系我的图书馆...首藏)