配色: 字号:
CSSCI 数据导入Bibexcel 实现共现矩阵的方法及实证研究
2015-04-02 | 阅:  转:  |  分享 
  
CSSCI数据导入Bibexcel实现共现矩阵的方法及实证研究

姜春林陈玉光

(大连理工大学21世纪发展研究中心辽宁大连116024)



摘要:本文以针对WebofKnowledge开发的文献信息共现分析的应用软件——Bibexcel为研究对象,结合CSSCI数据库数据格式特点,解决了Bibexcel不能处理中文文献的瓶颈问题,实现了知识单元共现关系矩阵。并以CSSCI数据库CSSCI、共现矩阵、知识图谱、可视化

TransformCSSCIDatatoBibexceldatatoActualizeCo-occurrenceMatrixandACaseStudy

JIANGChun-lin,CHENYu-guang

(Centerofthe21stCenturyDevelopmentandResearch,DalianUniversityofTechnology,Dalian116024)

Abstract:hispaperresearchsonBibexcelthatdevelopedfortheco-occurrenceanalysisofliteratureinformationthatcomefromWebofKnowledge,andcombinedwiththecharacteristicsofdataformatsintheCSSCIdatabase,toresolvethebottleneckofco-occurrenceofChineseliteratureinformationwhichBibexcelcannothandlebyitself.Weactualizedtheco-occurrencematrixofknowledgeunitrelations.CSSCIdatabasein1998-2008"InformationVisualization"Citationdataasanexample,afterdatapreprocessing,theknowledgeunitco-occurrencematrixbuiltbyBibexcel,useUcinet,Netdrawsoftwares,actualizestheauthorscooperativenetworkanalysis、keywordscooccurrenceanalysisandcocitationanalysis.ThisstudyextendsthescopeofapplicationofBibexcel,andprovidesanewmeansofvisualizationforCSSCIdata.

Keywords:Bibexcel、CSSCI、o-occurrencematrix、Knowledgemap、visualization

引言

科技文献数据量的快速增长给我们的研究工作带来了极大便利,同时,文献数量的增长,也给文献的管理与分析利用带来了诸多的不便[1]。如何快速、准确地得到所需要的资源,并理解这些大量文献所表达的内容变得越来越困难。共现分析如共作者分析、共词分析、共引分析、共被引分析等以邻近联系法则和知识结构及映射为方法论基础,来发现研究对象之间的亲疏关系,挖掘隐含的或潜在的有用的知识,并揭示研究所代表的学科或主体的结构变化。基于共现分析的信息可视化技术能形象化地表达文献信息蕴含的内容,方便科研人员和情报人员挖掘文献集中所隐含的知识。

国外关于文献信息共现关系分析的应用软件已经比较成熟,如美国费城的德雷塞尔大学信息科学与技术学院的陈超美开发的基于JAVA平台的Citespace[2][3]系列应用软件;印第安纳州大学开发的大型网络分析、建模、和可视化的工具包NetworkWorkbenchTool;大型社会网络分析软件Pajek;瑞典科学家佩尔松(persson)开发的科学计量学研究软件Bibexcel[4];美国斯坦福大学社会科学统计软件包SPSS[5]。姜春林、杜维滨等人用VisualBasic6.0语言开发了一款软件Ccmatrix,用ADO技术连接Access自建数据库,处理统计来源文献题录数据和引文数据,实现了共现矩阵[6]。

针对处理CSSCI数据共现分析相关软件相对较少的现状,为了方便广大科研人员和情报人员对CSSCI数据库中的数据进行分析,本文尝试研究了CSSCI数据导入Bibexcel实现共现矩阵的方法。

2Bibexcel软件简介

2.1功能介绍

瑞典科学家佩尔松(persson)开发的文献计量学研究软件Bibexcel[7]用于帮助用户分析文献数据或者是文本类型格式的数据,实现引文分析。Bibexcel处理的数据来自集成在ISIWebofKnowledge平台上的数据库,包括WebofScience数据库、DerwentInnovationIndex数据库和Medline数据库等。Bibexcel除了对来源于上述数据库中数据的相关知识单元(作者、关键词、参考文献等)做频次分析和排序外,还实现了知识单元的共现关系矩阵。将产生的共现数据存入excel表格中,借助Ucinet、Netdraw可视化软件,做进一步的可视化分析。Bibexcel界面如图1所示。



图1Bibexcel界面

2.2Bibexcel在共现分析中的优势与不足

Bibexcel的强大功能在于知识单元的共现关系分析,对英文文献数据或专利数据的共现关系分析已经取得令人满意的结果。如栾春娟《专利计量研究国际前沿的计量分析》[7],对1995-2007年期间《科学计量学》出版的关于国际专利计量研究的论文和引文进行计量分析,通过Bibexecel处理,得到高被引作者共被引矩阵、高频关键词共现矩阵和高频次作者共现矩阵,再通过Ucinet绘制作者共被引网络图谱、高频关键词共现网络图谱和高产作者学术合作网络图谱。但是,在CSSCI文献数据库中,Bibexcel对中文献数据的分析存在着局限性,主要原因是在于Bibexcel不能直接处理CSSCI格式数据。

中文社会科学引文索引(CSSCI)作为我国社会人文科学主要文献信息查询与评价的重要工具,CSSCI提供来源文献、被引文献、优化检索等多种信息检索。该项目成果填补了我国社会科学引文索引的空白,达到了国内领先水平。从CSSCI下载某一领域的相关文献,并对其进行分析,不但可以科学合理、客观公正地评价人文社会科学研究的成果,而且对了解国内的研究现状和研究热点,因此具有非常重要的现实意义。

3CSSCI文献数据共现矩阵的实现

3.1数据下载

确定某一研究领域后,进入CSSCI界面(http://www.cssci.com.cn),点击“包库用户入口”,选择来源数据的“年份”和“来源文献”,进入到检索界面。在这个界面中,进一步选择其他限制条件,可以按关键词,也可以按学科类,还可以按期刊名称等进行检索。设定检索条件后,再选择每屏显示记录的条数。为了下载方便,通常情况下选择50条。下载每屏数据,并将其保存为默认的后缀名为.txt文本文档格式。

3.2将CSSCI数据格式转换为SCI数据格式

从CSSCI下载相应的数据,利用大连理工大学刘盛博开发的中文处理软件对CSSCI数据进行格式转换,将CSSCI数据格式转化为SCI数据格式。经过这个软件处理后,每一条文献记录被存放于一个.txt文本文档当中,由于Bibexcel只能识别和处理一个.txt文本文档,要想对转换格式后的所有文献数据中的知识单元进行共现分析,就需要对所有的文档做进一步的合并处理。用Java编程,找到处理后文本文档所在的目录,顺序的读取文本文档,将其内容写入到一个文本文档中。在合并好的文本文档的开头,加上

FNISIExportFormat

VR1.0

这两行代码,保存后关闭文档。

3.3知识单元共现关系矩阵的处理流程

CSSCI数据经过格式处理和合并文件后,实现知识单元可视化分析的关键一步,就是要构建知识单元的共现矩阵,实现了共现矩阵后,再将其导入Ucinet、Netdraw等分析软件,绘制各类知识单元的共现关系图谱。

Bibexcel构建知识单元共现关系矩阵处理流程如下:

Step1:Misc---converttodiologeformat---convertfromwebofscience”,会弹出一个对话框,点击“确定”,就会生成一个后缀名为.doc的文件;

Step2:选中.doc文件,点击Viewfile按钮,Thelist窗口就会显示这个文件的内容。根据你要分析的知识单元,在OldTag中填写相应的标签代号。作者、关键词、机构、参考文献、被引期刊的标签依次为AU、DE、C1、CD、CD。输入相应的标签后,在Selectfieldtobeanalysed下拉列表框中选择Any;separatedfield”;如果要分析被引期刊,在输入CD标签后,在Selectfieldtobeanalysed下拉列表框中选择,点Prep生成.out文件;

Step3:选中.out,在Frequencydistribution中选择wholestring”;如果分析机构共现,选择“wholestring”;如果分析参考文献共现,选中“CitedReference”;如果分析被引期刊共现,选择“wholestring”;选择相应的分析单元后,在下面的复选框中选择“Sorteddescending”,点击Start按钮,在弹出的窗口中,点击“确定”,生成Step4:选中.out文件,在Frequencydistribution下面选择removeduplicate”和makenewout-file”,点击Start按钮,在弹出的窗口中,点击“确定”,生成.oux文件;

Step5:选中.cit文件,点击“viewfile”,在TheList显示窗口中选择位,Analyze----co-occurrence----selectunitsvialistbox”,然后选中.oux文件,点击“Analyze----co-occurrence----makepairsvialistbox”,在弹出的窗口中,点击“否”,此时生成.coc文件;

Step6:选中.cit文件,同样点击“viewfile”,在TheList显示窗口中选择位,Analyze----co-occurrence----selectunitsvialistbox”,然后选中.coc文件,点击“Analyze----makeamatrixforMDSetc”,在弹出的对话框中,按照提示,点“是”还是“否”,选择生成方阵还是下三角矩阵,生成共矩阵.ma2,将其打开,另存为.xls文件。

图2CSSCI文献数据的可视化处理流程

4实证分析

4.1数据来源

从CSSCI直接关键词检索,分别以信息可视化、知识可视化、知识域可视化、知识图谱、知识地图、概念图、思维导图、认知地图为关键词进行检索,检索年限选择1998—2008年,下载引文数据,并保存为文本文档。总共检索出274条文献记录,其中有17条是重复的,经过去重处理后,剩下257条文献记录,将其作为本文的研究对象。

4.2高产作者合作网络分析

Bibexcel经过频次统计后,选择出现频次大于3的25位高产作者,并构建其共现分析矩阵。经Ucinet软件将其共现矩阵表文件转化为后缀名为.##文件后,使用Netdraw可视化软件绘制知识图谱。高产作者合作网络知识图谱如图3所示。



图3高产作者合作网络知识图谱



图中的小圆圈代表的是信息可视化专家,结点的大小代表的是节点的中介中心性(Betweenness)的大小,节点越大,节点在网络中占有的地位就越重要。如果两位作者之间有过合作,他们之间就会用线连接起来,边的粗细代表两个节点关联强度(TieStrength)。两个小圆圈之间的连线越粗,代表两者共现次数越多,他们研究领域的相关性越大,进行合作研究的次数也越多。

从图3可以看出这25位高产作者,形成了两个最为显著的合作群体。第一个合作群体是以周宁为核心人物的9位作者组成的,他们来自武汉大学信息资源研究中心介绍知识可视化的研究框架可视化变量研究、可视化模型的研究、符号系统的研究、空间认知与信息传输研究、心理学和认知科学的研究、虚拟现实研究

图6期刊共被引频次分布图



统计发现,目前国内与信息可视化相关的文献主要发表在以下情报学和科学学类刊物中,如情报科学、情报杂志、现代图书情报技术、图书情报工作、中国电化教育、情报学报、情报理论与实践、科学学研究。这些刊物可以认为是信息可视化研究领域的核心刊物。

5结语

将CSSCI下载的数据经过格式转换后,用Bibexcel构建作者共现矩阵、关键词共现矩阵、参考文献共现矩阵、机构共现矩阵、期刊共被引矩阵,并借助Ucinet、Netdraw可视化软件,将分析单元之间的共现关系以图谱的形式显示出来,取得了较满意的结果,为从大量文献数据中发现它们之间的复杂关系提供了方便,有助于科研新手快速了解某一领域的研究现状和趋势,为其科研选题提供快速通道;也有利于知识计量学研究的方法创新,还有益于情报机构提供精细化的情报信息服务。但由于Bibexcel软件本身的原因,还不能实现被引期刊共现矩阵,这个问题还有待我们今后不断加以探索



参考文献

[1]任智军,朱东华,谢菲.科技文本的可视化分析研究[J].北京理工大学学报(社会科学版).2007,9(1):13-17

[2]SynnestvedtMB,ChenC,HolmesJH.CiteSpaceII:visualizationandknowledgediscoveryinbibliographicdatabases[J].AMIAAnnuSympProc.2005:724-728.

[3]ChenC.Searchingforintellectualturningpoints:progressiveknowledgedomainvisualization.[J].ProcNatlAcadSciUSA.2004,101(l1):5303-5310.

[4]OnyanchaOB.Growth,productivity,andscientificimpactofsourcesofHIV/AIDSresearchinformation,withafocusoneasternandsouthernAfrica[J].AJAR-AFRICANJOURNALOFAIDSRESEARCH.2008,7(1):55-70.

[5]周春雷,王伟军,成江东.CNKI输出文件在文献计量中的应用[J].图书情报工作.2007,51(7):124-126

[6]姜春林,杜维滨,李江波.CSSCI文献数据共现矩阵的软件实现[J].情报理论与实践.2008,31(6):937-940

[7]http://www8.umu.se/inforsk/Bibexcel/.

[8]栾春娟,王续琨,刘则渊,etal.专利计量研究国际前沿的计量分析[J].科学学研究.2008,26(2):334-338

[9]王莲.基于概念图的知识模型及其在信息检索课中的应用[J].大连理工大学人文社会科学研究基金项目(DUTHS2008304)

【作者简介】姜春林,男,1970年生,吉林延边人,大连理工大学21世纪发展研究中心副所长,副教授。

陈玉光,,男,1984年生山东平度人,硕士研究生,研究方向为学科知识计量;



CSSCI文献数据



SCI文献格式数据



共现关系矩阵



共现网络图谱



CSSCI文献格式转化工具;

文本文档内容合并处理



Bibexcel共现关系分析工具



Ucinet、Netdraw可视化分析软件









献花(0)
+1
(本文系181747906首藏)