分享

科学网—国内知识图谱应用概述

 看见就非常 2012-05-22

希望对大家了解我国科研人员近年来知识图谱的应用现状有点帮助。

 

国内知识图谱应用概述

 

摘  要 近年来我国研究人员对科学知识图谱的应用研究不断增多,本文从应用领域、数据来源、研究方法与技术、研究应用目标等方面对我国目前知识图谱应用情况作出简要描述,并指出当前研究中存在的一些问题。

关键词 科学知识图谱 应用研究

知识图谱,或科学知识图谱,是显示科学知识的发展进程与结构关系的一种图示。随着科学计量学从数学表达方式揭示科学知识及其活动规律转向图形表达方式,知识地图从显示科学知识地理分布转向展现知识结构关系与演进规律,科学知识图谱悄然兴起[1]。近年来,科学知识图谱在我国的应用研究及实证研究不断涌现,本文将对这些研究作出简要概括,描述我国近年来科学知识图谱应用现状。

1 科学知识图谱概述

“图谱”是指进过系统编辑并根据实物描述或摄制的图,是研究某一学科所用的资料。“图谱”中的“图”指的是地图,“谱”指系统,图与谱合一则是空间与时间动态变化的统一表述。图谱主要表现事物和现象的形态结构、成因机制、组成物质、动态变化等综合性、复杂性规律,往往以系列图的形式表示时空动态变化[2]

知识图谱(Mapping Knowledge Domain),也被称为科学知识图谱、知识域可视化或知识域映射地图,是显示科学知识的发展进程与结构关系的的一系列各种不同的图形。它用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系[3]。文献[4]也将科学知识图谱译为Scientific Knowledge Map,在上述概念的基础上认为科学知识图谱可以在组织内创造知识共享的环境,从而最终达到促进知识交流和研究深入的目的。

具体来说,知识图谱是把应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,用可视化的图谱形象地展示学科的核心框架、发展历史、前沿领域以及整体知识架构的多学科融合的一种研究方法。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考[3]

知识图谱的起源与发展源于引文分析理论、复杂网络系统、社会网络分析的兴起以及信息可视化提供的技术支持[5]。其理论基础有文献计量学方法、科学计量学方法、信息计量学方法、引文分析、词频分析、社会网络分析、多元统计分析等理论,包括传统科学计量图谱、三维构型图谱、多维尺度图谱、社会网络分析图谱、自组织映射图谱、寻径网络图谱、共被引网络图谱等多种类型,其构建过程中常用软件包括BibexcelCiteSpaceHistCiteSPSSWordsmith ToolsCcmatrix[6]WordstatThomson Data AnalyzerSCI-MapVxInsightPajekUcinetNetdrawVisioMainMapper等。

2 国内知识图谱应用

完备的知识图谱应用流程通常应包含以下步骤:确定知识领域;收集数据;提取研究领域术语;时区分割;阈值选择;精简和合并;显示;可视检测;验证关键点[7]。文献[8]从数据挖掘的思想出发,将其分为数据收集、数据预处理、数据计算、绘制图谱、研究报告形成五个主要部分。本文将围绕这一系列步骤,从应用领域、数据来源、研究方法与技术、研究应用目标等方面对我国目前知识图谱应用情况作出简要描述。

2.1 应用知识领域

文献[4]认为,科学知识图谱的应用领域很广,已经渗透到科研、教育及社会问题的解决等领域。综观我国研究人员对知识图谱的应用,主要集中在以下领域:(见表1

表一 我国知识图谱应用领域分布

领域

研究实例内容

领域

研究实例内容

图书馆学情报学

情报学

经济与管理

国际技术创新理论

国际“专利信息”研究

国际创新管理

国际竞争情报

创新理论研究

图书情报学

企业风险管理

国内图书情报界

国际旅游

国际竞争情报研究

区域创新系统研究

国际信息资源管理研究

我国生态可持续发展领域研究

知识管理

教育

工程教育

国外知识管理领域流派研究

医学文献检索课程改革研究

科技情报

研究生教学

引文分析

具体学科应用

地学

科学计量学

科学计量学

询证医学

知识计量学

医学文献分析

国内外科学计量学元研究

国际生物制氢研究

科学计量学进展

农史学科学科关系

科学计量学家研究

国际奥林匹克运动研究

科学学

中国科学学历程

中国力学

科学传播研究

农业信息分析

技术预见

期刊

美国《科学哲学》

教育学科卓越科研机构描绘

《情报科学》

科学基金资助监管

国家科技人力资源研究

科学传播热点

学科发展监测与评价

辽宁高校自然科学分布

可见,我国研究人员对知识图谱的应用类型众多,涉及不同学科、行业,但主要也分为科研、教育、社会问题解决三大范畴,其中以图书馆学情报学、科学学及经济管理领域的应用居多。

2.2 数据来源

通过表1可以发现,我国研究人员在具体应用知识图谱的过程中,视角有所不同。一些研究人员侧重分析整个国际或国外某一学科领域,其他部分研究人员注重对国内或国内某一地区的某一学科领域。因此,其数据来源有所区分。经过对文献的梳理发现,国际或国外研究的数据多来自于SCI(科学引文索引)、SSCI(社会科学引文索引)、A&HCI(艺术与人文引文索引)、ISTP(国外科学与技术会议)几大数据库或其收录的核心期刊;国内研究,部分基于SCISSCI数据库中我国研究人员的文献,部分则是通过对CNKI(中国知网)检索数据或是CSSCI(中文社会科学引文索引)数据库收录的核心期刊的文献。

2.3 研究方法与技术手段

2.3.1 研究方法

1)文献计量分析

文献计量分析作为传统的信息描述统计方法,主要有基于时间、期刊、作者、机构、地区或国家的分布几种类型。我国研究人员在分析过程中,以上分布类型均有涉及,其中以对文献的期刊分布的研究居多。如,刘则渊等在对三十年中国科学学主题文献进行可视化分析的过程中,显示了科学文献的时序分布、期刊分布和作者分布[9];高劲松等在国际“专利信息”研究热点的揭示中采用了时序分布及国家分布[10];而王琪等在应用知识图谱研究国际奥利匹克运动的现状与发展趋势时,采用的文献的机构分布[11]

2)引文分析与共被引分析

引文分析的作用在于,通过引文的网状关系研究,能够探明有关学科间的关系和某些发展规律。共被引分析是一种重要的关联分析方法,可以区分为著者共被引、期刊共被引及学科共被引。

著者共被引分析。通过著者共被引分析,可以揭示学科专业人员之间的联系和结构特点,进而反映其从事的学科专业之间的关系及变化趋势。赵勇,沙勇忠通过对24种情报学核心期刊引文的著者共引分析绘制情报学研究的知识图谱,并据此确定国际情报学研究热点[12]。此外,沈建通、宋慧林、徐振亮、孙毅等各自采用著者引文分析方法在询证医学、旅游、创新管理、工程教育多个领域开展了知识图谱应用[13-16]

期刊共被引分析。期刊共被引分析能够揭示学科期刊之间的相互关系及结构特征,同时可以通过期刊共引关系判断某些期刊的专业范畴、帮助确定学科的核心期刊。蒋春林、赵勇、秦长江、孙毅、侯海燕等分别使用期刊引文分析的方法就我国生态可持续发展领域、图书情报领域、农业史学科、工程教育、国际科学计量学等领域开展相关知识图谱的绘制[6,16-18]。                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           

学科共被引分析。通过学科共被引,能够揭示不同学科之间的交叉关系与依赖关系,反映学科体系的学科构成与结构特征。不过,目前国内研究人员在知识图谱应用过程中较少采用这种分析方式,在笔者查阅的文献中尚未出现这方面的实例。

引荐分析。引荐分析法是郑州大学的周春雷在改进引文分析法的基础上提出的一种创新的情报学研究方法。周春雷将其命名为“基于h指数的专家引荐分析法”,其思路是:层层选举,即首先由领域内全体作者通过引文进行投票,采用h指数遴选出高影响力作者(即专家),然后得出专家频繁引用的人(即专家眼中的同行),最后汇总全部信息,运用网络分析法和可视化方法勾勒出领域内具有较大学术影响力的学者群体。基于国内图情领域的引荐分析实证研究,认为可以勾勒学科内各研究领域的聚集情况,从而发现本领域的新秀、其他领域有影响力的研究者及国外专家[19]。这种新型思路值得我国研究人员借鉴思考。 

2)词频分析与共词分析

词频分析法的基本原理在于通过一个词出现频次的多少的变化,来确定热点及其变化的趋势。共词分析中的“词”可以是“关键词”、“作者”、“作者机构”、“参考文献”等,对这些词分别进行统计并绘制知识图谱可以分别反映出该学科或机构的研究主题结构、作者合作网络、机构合作网络、地区合作网络、学科知识结构来源等情况。

汤建民在基于文献计量的卓越科研机构描绘研究中,以国内教育学科为例,采用了词频分析以及高频作者统计及高产作者合作网络等方法来绘制知识图谱,评价卓越科研机构[20]。高劲松在研究国际“专利信息”研究热点的过程中,亦采用的词频分析的方法特别是高频关键词分析[10];同时,王琪在绘制国际奥林匹克运动研究的知识图谱中夜采用了高频关键词的分析[11]。共词分析中,较多使用的是关键词共现分析的方法,如姜春林、刘则渊、杜广强、段庆锋等人的研究[6,9,21,22]。对于学科共现分析及其他合作网络的的绘制较少,屈天鹏在基于SCI数据绘制辽宁高校自然科学学科分布时采用了学科共现分析方法[23]

3)多元统计分析 

多元统计分析是对若干(可能)相关的随机变量的观测值的分析。其特征在于降维技术,包括因子分析、多维尺度分析和聚类分析[5]。因子分析通常采用主成分方法和方差极大正交旋转;聚类分析一般采用层次聚类,选择离差平方和法与欧氏距离平方法;多维尺度分析通常生成二维体系图[17]。由于SPSS软件的强大功能,对于多元统计分析方法的使用多数采用此软件,国内研究人员在其具体研究过程中并无较大分别。

4)社会网络分析

社会网络分析是人、集团、组织或其他信息与知识处理实体的关系和流动的映射和测量。社会网络分析可以为任何共同体构建一个社会网络,其主要分析指标有紧密性、中介性、中心性、桥、簇、团、丛等,通过社会网络分析中的相关概念可以找出具有重要地位的作品作者或是关键词及学科力量与群体分布情况[5]

我国研究人员在知识图谱的实际绘制过程中,社会网络图谱的绘制并无原理上的分别,所不同的是其使用的具有社会网络分析功能的工具与软件,这将在下一部分介绍。所构建的社会网络,按其节点代表的不同计量指标,可分为关键词共现网络、作者合作网络、机构合作网络、地区合作网络、学科结构网络等。如姜春林在我国生态可持续发展研究中综合使用了作者合作、省区合作等[6];刘则渊在绘制我国30年来科学学发展历程的知识图谱时,采用关键词共现网络[9]

2.3.2 研究工具与软件

绘制知识图谱常用的工具与软件可按其分析方法与阶段的不同,分为以下几类:引文分析软件、词频分析软件、多元统计分析软件、社会网络软件。

1) 引文分析软件。我国研究人员使用较多的词频分析软件主要有BibexcelCiteSpaceThomson Data Analyzer。此外,国际上常用的引文分析软件还有HistCite

2) 词频分析软件。国内研究人员使用较多的是Wordsmith Tools,国外学者通常还使用另一款名为WordStat的软件。

3) 多元统计分析软件。通常均为SPSS软件。

4) 社会网络分析软件。主要为PajekUcinet两种。

2.4 研究应用目标

文献[3]从理论上做出分析,认为知识图谱的主要应用包括:(1)从事科学技术活动的学术共同体和作为其知识载体的网络;(2)某一学科主要研究领域之间的内部联系,各研究领域之间的知识输入与知识输出;(3)研究主题的衍生、渗透于扩散趋势;(4)学科领域内显性或编码化的知识(作者、专利、期刊和其他出版物)之间的关系;(5)科学社会网络(科学合作网络)等。

本文将国内研究人员在知识图谱应用中期望达到的目标,做了简单归纳如下:

1)明晰学科基本框架。包括揭示学科结构、学科属性、学科地位。

2)探究学科研究内容。包括主要研究领域,核心研究领域,相关研究领域,前沿与热点领域。

3)描述学科研究人员。包括学术代表人物,主流学术研究群体,主要研究机构以及学科力量分布,确定核心期刊。

4)预测学科研究进展。包括学术前沿,发展趋势,学科进化信息,发展规律,寻找学科盲点等。

5)揭示学科间关系。揭示学科与相邻学科间关系,确定学科群,确定相关学科等。

6)面向实际应用。如用于决策支持[8]、技术预见[24]、科研基金资助监测[22]等。

3 总结与讨论

我国知识图谱的研究起步较晚,缺乏对知识图谱理论的系统的研究,目前主要以应用为主。知识图谱应用近年来在我的应用迅速增多,其文献分布于不同专业领域的期刊,实际应用中涉及的学科范围较广,涵盖了自然科学领域及社会科学领域的的部分学科,并有不断朝其他学科渗透的趋势。对绘制知识图谱,并基于知识图谱进行情报研究目前已形成了一套较为成熟的方法。

我国知识图谱应用不断涌现的过程中,暴露出了存在的一些问题:

1)主要将知识图谱作为一个工具应用于各个领域,应用研究的理论基础薄弱,缺乏理论上的实证分析[4]

2)国内绘制知识图谱通常采用国外已成熟的传统方法,研究手段和方法滞后,缺乏对先进技术与方法的研究。如寻径网络、自组织特征映射、力矢量布局算法、潜在语义算法、最小生成树算法、三角测量等较为先进的映射技术在国外已有实验报道,但在国内除寻径网络的方法外仅有简单评介[3]

3)知识图谱应用过程中使用的工具与软件,多为国外开发,要求的数据格式与国内主要数据库有差别,软件对中文处理的支持差。

虽然存在这些问题,但当前我国知识图谱的研究中还是有一些喜人之处的。郑州大学的周春雷提出的“引荐分析法”,可以认为是我国研究人员对引文分析、知识图谱理论的新贡献。武汉大学的沈阳领导的ROST虚拟学习团队开发的ROST内容挖掘系统是对基于中文的数据挖掘、知识发现的极大技术支持[25]。该款软件对中文支持力度好,且功能丰富,包括分词、字频分析、词频分析、社会网络与语义网络分析、情感分析、流量分析、相似分析、聚类分析、分类分析、微博分析、期刊分析、标签云等一系列情报分析及可视化功能。

为保证我国科学知识图谱研究得以发展,不断推进理论研究与创新及技术革新,应是我国科学知识图谱研究人员今后研究的重点与方向。

参考文献

[1] 陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,2005,232):149-154

[2] 许君,裴韬,姚永慧.地学知识图谱的定义、内涵和表达方式的探讨[J].地球信息科学学报,2010,124):496-502,509

[3] 秦长江,侯汉清.知识图谱——信息管理与知识管理的新领域[J].大学图书馆学报,20091):30-3796

[4] 廖胜娇,肖仙桃.科学知识图谱应用研究概述[J].情报理论与实践,2009,321):122-125

[5] 杨国立,李品,刘竟.科学知识图谱——科学计量学的新领域[J].科普研究,2010,54):28-34

[6] 姜春林,唐悦.我国生态可持续发展领域研究的科学计量分析[J].科技管理研究,20107):200-203

[7] 陈超美等.CiteSpace Ⅱ:科学文献中新趋势与新动态的识别与可视化[J].情报学报,2009,283):401-421

[8] 汤建民.学科知识图谱的绘制及在学科发展监测与评价中的应用[J].情报理论与实践,2009,3210):55-59

[9] 刘则渊,胡志刚,王贤文.30年中国科学学历程的知识图谱展现——为《科学学与科学技术管理》杂志创刊30周年而作[J].科学学与科学技术管理,20105):17-23

[10] 高劲松,刘廷芳.国际“专利信息”研究热点——基于知识图谱的词频分析[J].情报杂志,2010,298):36-39

[11] 王琪,方千华.基于知识图谱的国际奥林匹克运动研究现状及发展趋势[J].武汉体育学院学报,2010,445):5-10

[12] 赵勇,沙勇忠.当代情报学研究的知识图谱:基于ACA的分析[J].图书馆论坛,2008,286):63-69

[13] 沈建通,姚乐野.多元统计和社会网络分析方法在知识图谱应用中的实证研究[J].情报杂志,2009,288):33-36,20

[14] 宋慧林.国际旅游研究前沿的知识图谱分析——基于对TMATM所载文献的考察[J].旅游科学,2009.236):9-13

[15] 许振亮,刘则渊,陈悦.绘制国际创新管理主流学术群体的知识图谱[J].大连理工大学学报(社会科学版),2008,291):66-71

[16] 孙毅,许振亮,曾晓娟.基于知识图谱的工程教育前沿成果[J].高等工程教育研究,20085):86-89

[17] 赵勇.期刊引文分析及可视化实证研究[J].图书与情报,20093):89-94

[18] 秦长江.基于期刊共引分析法的学科关系知识图谱的实证研究[J].现代情报,2010,305):9-11

[19] 周春雷.引荐分析法:一种新的引文分析法[J].情报学报,2010,294):671-678

[20] 唐建民.基于文献计量的卓越科研机构描绘方法研究——以国内教育学科为例[J].情报杂志,2010,294):5-9,35

[21] 杜广强,许振亮.绘制创新理论研究的知识图谱:关键词共现分析[J].科技进步与对策,2009,2613):135-138

[22] 段庆锋,汪雪锋,朱东华.基于数据挖掘的科学基金资助监测方法研究[J].情报杂志,2010,298):1-4

[23] 屈天鹏,侯海燕,刘则渊.基于SCI的辽宁高校自然科学学科分布知识图谱[J].中科技创新导刊,20105):145

[24] 王伟军,王金鹏.科学知识图谱在技术预见中的应用探析[J].情报科学,2010288):1127-1131

[25] 沈阳.2008.ROST ContentMining System:software for Content Mining and Analysis. Wuhan University,HuBei,China.



http://bbs.sciencenet.cn/blog-354245-426546.html

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多