分享

文献共现分析入门 - zilu85的博文 - 科学网

 whuhujiming 2011-05-05

文献共现分析入门

已有 1895 次阅读 2010-2-3 08:46 |个人分类:生物医学文献计量学|系统分类:论文交流|关键词:共现,聚类分析,书目数据

1. 分类号、主题词与关键词
在信息管理领域中,对文献内容的标识主要采用分类语言和主题语言。
分类语言,也称分类法,是用分类号来表达主题概念,这些分类号来自于事先编制好的分类表,而分类表则是依据知识原有的体系结构将主题概念组织排列成为类目体系(如图书馆里采用的《中国图书馆图书分类法》),比如将医学知识分为医学总论、预防医学、中医学、基础医学和临床医学等几个大类别,临床医学有进一步分为内科、外科、妇科、儿科等更细的类目,如同一棵大树,将医学知识逐级分支、细化。信息管理人员在处理文献时,首先分析文献的主要内容,然后在分类表中找到对应的类目后赋予其相应的分类号。图书馆的读者在查询相应类别的图书或者文章的时候就可以沿着知识分类的体系找到对应的类目,由此找到相关主题的文献。
主题语言是一种用比较规范了的文字直接表达主题概念的标引语言。主题语言可以进一步分为标题词、单元词、主题词、关键词等,其中最常见的是主题词和关键词。主题词就是一些以概念为基础的、经过规范化的词和词组,而关键词则是从文献的题目、正文或摘要中抽出的能表征文献主题内容的具有实质意义的词语。二者最大的区别就是主题词是规范化的,一个概念只能对应与一个主题词,一个主题词只能对应一个概念;而关键词则是来自于作者的自然语言,在不同的文献中,一个概念可以有不同的表达方式(如一种药物在不同作者的论文中可以用其商品名、化学名和常用名),有时一个关键词可能表达多个概念(如P53可以是基因或者蛋白)。
2.频次排序分析
对作者、期刊和引文的统计分析,可以帮助我们从一个侧面了解某个研究主题的状况;而主题词和关键词作为文献数据库中反映论文的主要观点的标识,对其汇总和统计分析,则可以直接反映出研究的结构和趋势。
对于这些指标的分析中,我们比较常用的统计分析技术就是频次排序技术。就是将被统计的对象(如作者、期刊和主题词)都按照它们出现的频次从高到低排序,由此发现其中的规律。如布拉德福定律就是将期刊按照发表相关论文的数目从高到低排列,洛特卡定律的研究也是把作者按照发表论文的数目从高到低排列,由此发现了集中-离散的规律。
对于主题词或者关键词,也可以采用这种技术进行分析。例如,我们可以从PubMed数据库中检索到所有有关胃癌治疗的相关文献记录,抽取每篇论文的主题词,然后进行频次统计(如表10-5)。
这些主题词是所检索时间段内(本例为2009年 9月13日检索的最近5年的胃癌治疗文献)出现频次最多的主题词,如胃肿瘤的手术治疗、胃肿瘤的药物治疗、联合化疗方案的应用、胃切除的方法、胃肿瘤的病理等,这些都是当前胃癌研究人员最为关注的主题,因此也是近一阶段研究的热点。
表1 胃癌/治疗高频主题词列表(部分)
序号
关键字段
出现频次
百分比%
累计百分比%
1
Stomach Neoplasms / surgery
1440
9.7813
9.7813
2
Stomach Neoplasms / drug therapy
1324
8.9933
18.7746
3
Antineoplastic Combined Chemotherapy Protocols / therapeutic use
651
4.4220
23.1966
4
Gastrectomy / methods
366
2.4861
25.6827
5
Stomach Neoplasms / pathology
354
2.4046
28.0872
6
Stomach Neoplasms / therapy
328
2.2280
30.3152
7
Adenocarcinoma / drug therapy
321
2.1804
32.4956
8
Adenocarcinoma / surgery
289
1.9630
34.4586
9
Gastrectomy
214
1.4536
35.9122
3.共现分析
通过对高频主题词的词频统计分析,我们可以了解到目前某一专题领域里研究的热点。但是,仅仅对这些主题词按照出现频次由高到低的排列还不能表现出这些高频主题词之间的联系,因此我们可以采用共现分析的技术来进一步挖掘这些主题词之间的联系。主题词的共现分析是根据主题词在同一篇论文中共同出现的次数来表示主题词之间的联系。一般认为,如果两个主题词频繁在同一篇论文中同时出现,往往表明这两个主题词之间具有比较密切的联系。这就是共现分析的理论基础。
在MEDLINE数据库中存储的每一条纪录都被标引10个左右的主题词以及相应的副主题词,尽管在同一篇文章中出现的主题词之间没有明确的关系,但是我们还是可以通过分析这些主题词出现的具体情形(如检查每个主题词的副主题词)而推理出这些主题词之间的关系。例如,如果MEDLINE数据库的一篇文献记录中有x疾病的病因和Y药的副作用这两个主题词,人们自然会想到“Y药引起了x病”。通过查看原文就可以验证疾病和药物之间这种关系的有效性。因此,我们可以认为这些关系具有语义学上的意义。
对于代表研究热点的高频主题词统计它们共现次数后,可以形成一个高频主题词的共现矩阵。如表2。其中的行和列的数字代表主题词,与表1中的主题词序号对应,如1代表的是Stomach Neoplasms/surgery;矩阵中对角线的数字代表该主题词出现的总次数,非对角线上的数字表示的是两个主题词共同出现的次数,如1号与2号主题词共同在60篇论文中出现,1号与3号主题词共同在38篇文献中出现。这些数据经过适当的计算后转换为相关系数,成为相关矩阵后,就可以显示出高频主题词之间的亲疏程度,为进一步分析做好了准备。
表2 主题词共现矩阵(局部)
 
1
2
3
4
5
6
7
8
9
1
1440
60
38
351
178
6
13
289
150
2
60
1324
616
13
141
0
320
12
53
3
38
616
651
10
89
27
193
11
42
4
351
13
10
366
29
4
3
64
0
5
178
141
89
29
354
31
13
38
26
6
6
0
27
4
31
328
0
2
12
7
13
320
193
3
13
0
321
12
20
8
289
12
11
64
38
2
12
289
38
9
150
53
42
0
26
12
20
38
214
     4.      聚类分析
获得了相似矩阵之后,我们可以将其输入到统计分析软件(如SAS,SPSS等),选择相应的模块进行聚类分析(cluster analysis)。
我们经常说:“物以类聚,人以群分”,聚类分析是一种重要的人类行为。它是指将物理或抽象对象的集合分组,使其成为由类似的对象组成的多个类的分析过程。从数据的角度讲,聚类是通过计算分类对象在各个属性上的相似程度,将对象分类到不同的类或者簇的过程,使得同一个类中的对象有很大的相似性,不同类间的对象有很大的相异性。聚类与分类的不同在于聚类所要求划分的类预先是未知的。
以使用SPSS进行聚类分析为例,可以选择Analysis-Classify-Hierarchical过程,经过设置相应的参数后,对胃癌治疗的高频主题词共现矩阵进行分析,最后获得该研究领域高频主题词的共现聚类分析树图(如图1)。
首先对聚类树图的结构进行分析。聚类树图中的最左边的一列标号(Label)和数字(Num)代表着高频主题词,由于采用的是系统聚类法的凝聚聚类算法,因此,最初每一个主题词都是单独的一个类,通过计算每一对主题词之间的相似性,首先是2号和3号主题词聚集成为一个类,然后它们又合7号主题词合成为一个类。图中最上方的带有数字的标尺表示分类对象之间的距离。随着被分类的对象(主题词)之间的聚类越来越大,距离最终所有的主题词都成为一个类,我们可以根据需要在不同的距离水平上分割整个聚类树图,通过树图的结构我们可以看到,所有的主题词大致可以分为三个部分:由2、3、7号词组成的一个类别(A),由1、4、8、5、9号主题词组成的一个类别(B),和由6号词单独组成的一个类别(C)。
对各个类别主题词之间语义关系的分析。基于凝聚聚类算法的原理,对聚类分析结果的语义分析也采用了“自下而上”的步骤。即首先获取各个小类的含义,然后把各个小类的含义组合成为大类的含义。具体而言,就是首先从每个小类中关系最近的两个主题词着手,分析二者之间的语义关系,获得该类的“种子”概念,在“种子”概念的基础上,根据同类别中其他主题词与该“种子”的距离,逐次加入主题词,丰富该类别的内容,一般而言,距离比较远的主题词往往是该核心的相关因素,如具体的应用或者影响因素。本例中,对于3个高频主题词的类别中的主题词进行具体的语义分析,可以发现:
在A类中,“Stomach Neoplasms/drug therapy,胃肿瘤/药物治疗”(2)与 “Antineoplastic Combined Chemotherapy Protocols/therapeutic use,抗肿瘤联合化疗方案/治疗应用”(3)组合在一起表明的是对胃肿瘤采用联合化疗,加上“Adenocarcinoma/drug therapy,腺癌/药物治疗”(7)表明这一类主要是关于胃腺癌的联合化疗的主题。
 
图1 胃癌治疗高频主题词聚类分析结果(部分)
 
在B类中,“Stomach Neoplasms/surgery,胃肿瘤/手术(1)与“Gastrectomy / methods,胃切除/方法”(4)表明是关于胃肿瘤外科手术切除治疗的主题,同样,“Adenocarcinoma/surgery,腺癌/手术”(8)也是说明主要是针对胃腺癌的手术切除治疗,“Stomach Neoplasms/pathology,胃肿瘤/病理”则是说明这种疗法会受到不同的病理类型的影响。这一类别最边缘的主题词“Gastrectomy,胃切除”(9)没有副主题词,则是表示对胃切除的概述,是对上述主题的强化,由于与其他主题词距离比较大,也可以忽略不计。
C类则是单独一个单词,“Stomach Neoplasms/therapy,胃肿瘤/治疗”(6)则表示的是对各种治疗方法的概述性研究主题。
综上,我们可以总结出目前胃癌治疗研究的主要方向有三个:(1)胃癌胃腺癌的联合化疗,(2)胃腺癌的手术切除治疗(包括病理因素的影响),(3)胃肿瘤各种治疗方法。
通过对特定领域或者学科的高频主题词的共现聚类分析,我们就可以客观地反映出当前该领域研究的热点。其他表现文献内容的标识(如关键词、分类号)等,也可以用于此类分析。此外,一些表现文献外部特征的标识,如作者、引文等等,也可以进行共现分析,如作者的合著分析、引文的同被引分析、作者的同被引分析,这些都可以为展示某一学科领域里科学研究获得的结构和特点提供手段。这些分析的方法都是基于共现的聚类分析,其原理都是大同小异的。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多