分享

科学网

 你好_顺其自然 2017-09-05

科学计量学大经典定律


在科学计量学与文献计量学里,洛特卡定律、布拉德福定律、齐普夫定律、普赖斯定律,加菲尔德定律是最基本的大定律。多年来一直是科学计量学、文献计量学工作者必须掌握的基本知识。并受到人们的高度重视。值得指出的是它们之间有高度的一致性。存在着一定的联系又相互区别。下面我们就这大经典科学计量学定律展开讨论。

科学技术情报流一般是指科技文献出版物和未发表的材料的总和。它们以交流科技情报为目的而产生并应用于社会实践之中。科技文献情报流在整个情报系统中表现出一系列的规律,这些规律可以通过对科技文献本身的基本特征(包括作者、术语、杂志名称、引文、出版年月等等)进行排序和统计分析加以揭示。研究科技文献情报流量的特性时,要集中注意研究文献及其基本特征总和的各种不同的统计学规律,探索这些总和中对实践有用的统计学参数。本章主要介绍科学生产率的分布规律;科学技术文献的集中与分散规律;各种词汇、术语在科学文献中的分布规律;科学技术文献的老化规律;科学技术文献的相互引用规律和它们的实际应用。

第一节 洛特卡定律

洛特卡定律是由美国学者A.J.洛特卡在20世纪20年代率先提出的描述科学生产率的经验规律,又称倒数平方定律描述科学生产率的经验规律它描述的是科学工作者人数与其所著论文之间的关系:写两篇论文的作者数量约为写一篇论文的作者数量的1/4;写三篇论文的作者数量约为写一篇论文作者数量的1/9;N篇论文的作者数量约为写一篇论文作者数量的1/ n2……,而写一篇论文作者的数量约占所有作者数量的60%。该定律被认为是第一次揭示了作者频率与文献数量之间的关系,描述科学生产率的频率分布规律。1926年,在美国一家人寿保险公司供职的统计学家洛特卡经过大量统计和研究,在美国著名的学术刊物《华盛顿科学院报》上发表了一篇题名为科学生产率的频率分布的论文,旨在通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献。这篇论文发表后并未引起多大反响,直到1949年这一成果才引起学术界关注,并誉之为洛特卡定律。洛特卡定律是对两组数据统计的推广,是对信息生产的一般理论估计,而不是一个精确的统计分布,因而有其局限性。

洛特卡定律的一般表达公式:

f(n)= c/na

其中,n为单个作者发文数且1≤n≤T;

T为单个作者最大发文数;

f(n)为发表n篇论文的作者的比例;

a与c为常数。

第二节 布拉德福定律

布拉德福定律是由英国著名文献学家S.C.Bradford于二十世纪1934年代率先提出的描述文献分散规律的文献计量学经验定律。

一、布拉德福定律产生的背景

1.文献的分散是普遍的客观现象。在科学研究和文献工作中,布拉德福深深感到科学文献的分散。他发现:一个学科的论文分散在其他学科的杂志期刊上是屡见不鲜的。

2.科学统一性原则。科学统一性原则是布拉德福定律产生的思想基础。布拉德福认为:按照科学统一性原则,科学技术的每一个学科都或多或少、或远或近地与其他任何一个学科相关联。

3.文献统计研究是布氏定律产生的基础。布拉德福本人在长期的文献工作中,对科学文献进行大量的统计研究,掌握了文献分散的特点,发现了其中的某些规律性;并在文献统计的基础上经过数学推导,得出了与上述理论推导一致的结论,为布拉德福分散定律的正式确立奠定了基础。

二、布拉德福定律的形成及其基本原理

(一)布拉德福定律的提出

布拉德福在《文献学》中写道: 如果将科技期刊按其刊载某学科专业论文的数量多少,以递减顺序排列,那么可以把期刊分为专门面对这个学科的核心区、相关区和非相关区。各个区的文章数量相等,此时核心区、相关区,非相关区期刊数量成 1:n:n2……的关系。布拉德福定律的文字表述结论是建立在将等级排列的期刊进行区域分析的方法之上的。

(二)布拉德福定律的确立

维克利(Vickery)是英国的文献学家。他还创造性的提出了自己的修正和补充。指出

了布拉德福在论证过程中的某些自相矛盾之处,提出了新的见解。

1.布拉德福分布图形是曲线,不是直线;

2.布拉德福不只局限于划分为三个区,而同样运用于多个区的情形;

3.布拉德福定律的实际组成为语言描述和图像描述;

维克利的论证和补充,使布拉德福文献分布的图像与定律在结构上得到了统一,丰富了布氏分布理论的内容,使其在形式上趋于完整,为布拉德福定律的确立和发展做出了重要贡献。后来布拉德福定律获得了国际图书馆学情报学界的普遍承认并被人们广泛接受,维克利的工作无疑起了决定性的作用。除了维克利之外,还有许多文献学家和情报学家对布氏定律进行了深入研究,如布鲁克斯(Brookes),布鲁克斯以数学公式描述了这一定律,发展图像分析方法,为其实际应用开辟了新的道路。

(三)布拉德福定律的基本原理及其适用性

布拉德福定律的基本原理是由其区域描述、图像描述、数学推导三个部分组成的。关于布拉德福定律在网络环境中的适用性,国外学者在1997 年Almind 提出网络计量学这一概念后就进行了相关的研究。Bar-Ilan 通过将学位论文及其发布新闻与期刊及其论文的分布进行比较分析,然后根据布氏定律确定了以“疯牛病”为主题的核心新闻组,发现布氏定律同样适合于网页环境,但此研究是针对某一主题且数据具有一定局限性,不具备广泛适用性。Cui 通过对美国排名前25 位的医学院网页进行链接分析,他发现了网址链接的集中离散分布现象且网址数之间的比值为78:452:1201,接近1:4:42,这一结果表明医学院网页链接符合布拉德福定律,由于数据选取的局限性,对于这一定律是否适用于所有的网络环境则有待进一步验证。Tsay MY,yang YH 对MEDLINE 数据库中关于RCT的文献作了文献计量分析,发现通过区域分析可知第四区的期刊数明显大于预测值,但是四个区的期刊数之比较接近于l:2.5:2.52(6.25):2.53(15.6),符合传统的布氏定律,但又有明显的不同,文中对布氏定律的验证方法具有单一性,不能从多方面证明这种适用性。Behrens H 和Luksch P 对无机晶体结构数据库晶体学主题的文献进行分析,利用莱姆库勒函数对样本数据进行拟合分析,验证得知晶体学主题的文献符合布氏定律的分布,这一研究主要针对数据库数据且只对数据进行了单一方法的分析,并不能代表所有网络信息的分布 。Cristina Faba-Perez 通过对网络空间被链情况的图像分析发现,所得图像并不符合典型的布氏定律分布且通过区域分析可知各个分区的比例数也都不满足1:n:n2 的关系。

第三节 齐普夫定律

齐普夫定律(Zipf's Law)文献计量学基本定之一1948年美国哈佛大学语言学教授G.K.齐普夫(George K. Zipf )对英语文献中单词出现的频次进行大量统计以检验前人的定量化公式而提出的。该定律指出文章中单词的频次(f)与其排列的序号(r)之间存在着下述定量的关系,齐普夫认为:如果有一个包含n 个词的文章,将这些词按其出现的频次递减地排序,那么序号r和其出现频次f之积fr,将近似地为一个常数fr=C(为常数),(式中r=1,2,3.…),即词频分布定律最普通而又最典型的表达。 此后, 许多工具书大都采用类似观点和说法 。如英国著名的语言学著作《语言与语言词典》 中的释义是:“(词频分布定律) 是指谈话者或写作者使用的词的分布和频次的总描述。Fr=C,方程式中F=频次,r=序号,即频率表上的位置;C=常数。方程式表示词使用的总次数和词频表上的位置之间有一个固定比率。”但是齐普夫的表达仅适宜于中频词的情况,高频与低频词与该表述偏差较大。于是对词频分布规律又有许多补充和深化的研究。

词频分布原因的假说词频分布规律是有较为丰富内涵的,学术界认为正态分布是描述自然科学的典型分布,而齐普夫分布将成为揭示社会科学规律的典型分布,所以社会科学界一直很重视这个定律。讨论词频分布何以呈现那种特殊的形状,对其成因提出假说,建立适当的理论模型描绘其分布过程是当前研究工作的热点,目前较重要的假说有2个:省力法则”假说。提出这一假说的是齐普夫。他认为,在语言交流过程中,“省力法则”同时体现在说话人和听话人身上。说话人希望组成语言的词少,而且一词多义,以节省其精力。听话人认为最好是一词一义,使听到的词与其确切涵义容易匹配,减少他理解的功夫。这2种节省精力的倾向最后平衡的结果,便是词频的那种双曲线型分布。“成功产生成功”假说。这方面以H.A.西蒙的研究最为著名。西蒙构造了一个概率模型,他所作的一个重要假说是:在文献中,一词使用的次数越多,则再次使用的可能性越大。该模型最后导出的分布与齐普夫分布相当接近,普赖斯后来建立了一个相类似的模型,又明确地提出了“成功产生成功”的假说。夫定律已经在语言学、情报学、地理学、经济学、信息科学等领域有了广泛的应用,而且取得了不少可喜成果。中国数学家和语言学家周海中曾经指出:齐夫定律是描述词频分布规律的强大数学工具;作为经验定律,它仍有不足之处,有待进一步完善。研究词频分布对编制词表,制定标引规则,进行词汇分析与控制,分析作者著述特征具有一定意义。经验表明,中频词往往是包含大量有检索意义的关键词。而一篇文献全文输入计算机后,计算机是很容易检出中频词的。因此,词频分布也是文献自动分类自动标引的研究对象。

如果将一篇较长的文章(约5000字以上)中每个词按其出现频次递减排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级……这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有:

fr=C(C为常数)

如果等级r与频次f都取对数,则图4-4中的双曲线变成一条直线(图4-5)。与之等价的数学表达式为:

ln(r)+ln(f)=ln(C)

图4-5中的虚线表示理想化形式,一般地,斜率为k的任一直线可表示为:

这条直线由图4-5中实线表示。如果将这一方程改写可得:

kfr=C

如果说fr=C是齐夫定律的一般形式,这便是齐夫定律的修正形式。

如果等级r与频次f都取对数,则图4-4中的双曲线变成一条直线(图4-5)。与之等价的数学表达式:

lnr+lnf=lnc

图4-5中的虚线表示理想化形式,一般地,斜率为k的任一直线可表示为:

Klnr+lnf=lnc

这条直线由4-5中实线表示。

巴塞罗那自治大学数学研究中心的研究者最近使用数学和统计学的专业知识,对齐夫定律(Zipf's law)进行了严格的研究。他们使用了古登堡计划(the Project Gutenberg)的数据库——古登堡计划是一项将版权过期的英语书籍电子化的互联网计划,包含3万多篇英语文本,可以免费获取。这么大规模的研究在该领域前所未有,此前的研究大多只采用几十篇文本的数据集。分析结果表明,如果除去少数只出现了一两次的词语,有55%的文本完全地符合齐夫定律,而如果考虑所有的词语,仍然有40%的文本完全符合齐夫定律。该研究的负责人科拉尔(á.Corral)称,如果进一步忽略只出现3至5次的词语,符合齐夫定律的文本数还会更多。

第四节 普赖斯定律

普莱斯(Price)是著名的科学家与科学史学家,他在其代表名著《小科学,大科学》一书中曾有如下的论述:“在同一主题中,半数的论文为一群高生产能力作者所撰,这一作者集合的数量上约等于全部作者总数的平方根。普赖斯定律是衡量各个学科领域文献作者分布规律,因为科技情报学起源于文献计量学,科学计量学和文献计量学有很多的研究方法似乎类似的,所以普赖斯定律也成了研究科技情报学的方法之一。

(一)普赖斯定律

    普赖斯(1922.1.221983.9.3Derek John de Solla Price,美国科学家、科学计量学奠基人和情报科学创始人之一。犹太人。 1942年毕业于伦敦大学物理系,1946年获物理学博士学位。历任耶鲁大学教授、皮博迪博物馆的历史科技仪器馆馆长等职。主要是发现了科学文献指数增长规律,绘制了著名的普赖斯曲线。普赖斯所取得的成就基本上奠定了科学学的核心分支学科——科学计量学的诞生,理所当然成为“科学计量学之父”。著名学者Belver Griffith曾这样颂扬他:“普赖斯在科学文献方面的理解和成就促使了在文献计量领域的一场革命,也使得我们对科学学理解取得了飞跃性的进展。”现在国际《科学计量学》杂志和美国科学史学会都设有D.普赖斯奖。 普莱斯(Price)是著名的科学家与科学史学家,他在其代表名著《小科学,大科学》一书中曾有如下的论述在同一主题中,半数的论文为一群高生产能力作者所撰,这一作者集合的数量上约等于全部作者总数的平方根。

在洛特卡定律的基础上,普赖斯进一步研究了科学家人数与科学文献数量,以及不同能力层次的科学家之间的定量关系,提出了著名的普赖斯定律和一些其他重要结论。在《小科学,大科学》一书中,普赖斯写道:科学家的总人数,大致是按杰出科学家人数的平方增长的。所谓普赖斯定律(Price Law),即科学家总人数开平方,所得到的人数撰写了全部科学论文的50%。如果设最高产的那位科学家所发表的论文数为nmax,将科学家们发表论文的总数记为x(1nmax),则普赖斯定律可用下式表示:

(1/2)x(1, nmax) = x(m, nmax) = x(1,m)

式中,m为普赖斯假定的这样一个数,即个人的论文数大于m的科学家们所发表的论文总数恰好等于全部论文总数的一半,而式中x(mnmax)的意义恰好表征了这一半论文。  

这里的关键是如何确定m的数值?普赖斯根据洛氏定律,借用数学结论,经推导得出

m≈0 .749(nmax 1/2)

这是洛特卡定律的一个重要推论。这说明,发表了0.749(nmax 1/2)篇以上论文的科学家们所发表的论文总数等于全部论文总数的一半;或者说,杰出科学家中最低产的那位科学家所发表的论文数,等于最高产科学家发表论文数的平方根的0.749倍。普赖斯还曾试图找出全体科学家总数中杰出科学家的比例关系。经过进一步推导和计算,得出

R≈0.812/nmax 1/2

式中,R是杰出科学家人数与全体科学家总数之比。这是普赖斯得出的洛特卡定律的又一个重要推论。普赖斯定律普赖斯指数是促进情报学发展的定律之一,情报学主要是根据实际的信息来做出总结,是一门分析的艺术,而普赖斯定律是情报学分析的方法和参考标准,尤其是在文献作者的整理和数据的分析方面。

(二)普赖斯指数

1971年普赖斯提出了一个衡量各个学科领域文献老化量度指标——普赖斯指数。即指在一个具体学科内,把对年限不超过5年的引文数量与引文总数之比当做一个指标,用以量度文献的老化速度与程度。自然,普赖斯指数越大,文献老化越快。普赖斯根据《科学引文索引》(SCI)的分析,发现科技领域前沿的那些文献的平均年龄。现在一年中被引用文献中的一般,其年龄不超过5年。为此,普赖斯把受引的文献分成两个部分:其一是“有现时作用的文献”;其二是“档案性”文献。前者是在其出版5年内被引用的文献,后者则是出版5年后仍被引用的文献。这里表明文献的被引用行为有一个变化,出版5年后仍被引用,说明“有现时作用”的文献已转变成“档案性”文献了。档案性文献数量多寡,是受学科自身性质决定的。

普赖斯指数=近五年的被引用的文献数量 / 被引用的文献总量 * 100%

普赖斯本人认为,普赖斯指数要优于半衰期和引文中值年龄,它即可用于某一领域的全部文献,也可用于评价某种期刊、某一机构、有一作者和谋篇文章。半衰期与普赖斯指数者两个指标,系按不同方式反映了影响老化因素的相关关系。把半衰期作为一个常量来计算时,采用的是某一年中所有的引文一半,并以其出版的年度作为引文年龄。当把普赖斯指数作为一个常量计算时,采用的是不超过5年的引文,并计算这部分引文占全部引文的百分比普赖斯指数的数值范围大概是这样划分:22%-39%为档案性文献区间,75%-80%为有现时性作用的文献区间。一般而言,物理和生物化学方面的期刊的指数为60%-70%,x射线学和放射学为55%-60%,社会科学为40%-45%,植物学20%左右,语言学和历史学少于10%。下表按递减的顺序列出了不同学科某些期刊的“普赖斯指数”值。

期刊名称

普赖斯指数

平均引文量篇/

物理评论

72

11

物理评论通讯

71

10

计算机学会通讯

70

11

美国社会学通讯

60

17

计算机杂志

52

5

美国化学学会杂志

50

17

物理科学成就

50

100

原子能

47

15

美国动物学家

47

37

核物理

43

14

电子计算机

42

8

美国社会学评论

31

25

结晶学

30

12

美国数学月刊

30

3

美国语言学杂志

29

8

美国数学杂志

29

9

英国社会学杂志

27

22

植物编年志

23

20

地理杂志

23

8

美国植物学杂志

21

18

美国哲学季刊

18

10

语言学

18

14

美国考古学杂志

17

22

语言

15

10

ISIS国际科学史杂志

8

18

语言学季刊

7

36

(三)普赖斯科学地形图谱

1965年,借助费城《科学引文索引》普赖斯又发表了一篇著名的论文:《科学论文的网络》。后来普赖斯又将这篇论文发表在science杂志(1965)。在这篇论文中他祥细而又创造性地研究了科学论文之间的引证和被引证关系。以及由此形成的所谓“引证网络”。普赖斯研究证明。每篇论文平均引证参考文献数目是15篇,除评论性文章之外,凡每年被引证四次以上的论文,即可列为“经典文献”。按此标准,在数学、地质学和植物学中,大多数是经典之作。在化学工程、机械工程、冶金工程和物理学中,大多数“昙花一现”之作。在化学和生理学中,则两者各半。根据网络分析的原理,他进而提出了能指明科学研究前沿的定量模型。普赖斯最后强调指出,第一流的科学家都应密切注视他的同事和同代人的工作。因为科学研究前沿依赖近期的研究成果。在网络图上,必有密集分布的小条或小块。,如果把这些小条小块研究清楚,我们就可以绘制出当代科学的“地形图”。着随着这门“科学地形图学”的建立,人们就可以指出各类期刊、各个国家、各国科学家、各种科学论文等等在科学地形图上所占的位置。他们之间的相互联系和相对重要性。这样对科学技术评价方面的应用研究将会发挥着很大的理论指导作用。美国德雷克塞尔大学的格里菲思认为,《科学论文的网络》同样是科学计量学奠基之作。“字里行间看来更令人信服”,因为这篇论文“第一次富有意义地用原始资料,编织出一个明析的科学模型,其结论是惊人的漂亮和富有睿智”。这篇论文奠定了现在的知识图谱学。

第五节 加菲尔德定律

尤金·加菲尔德(Eugene Garfield 1925.9.16—),是美国著名的情报学家和科学计量学家,SCI(Science Citation Index,即科学引文索引)及ISI(Institute for Scientific Information, 即美国科学信息研究所,现为汤森路透科技集团的创始人,目前担任汤森路透科技集团终身名誉董事长。加菲尔德1925年9月16日出生在纽约市区,在一个犹太—意大利人家庭中长大。中学毕业后,当过电焊工人、建筑工人。二战爆发后毅然参军,当过滑雪兵。 战后入哥伦比亚大学学习化学,1949年获得科学学士学位。1954年他又获得哥伦比亚大学图书馆学硕士学位。良好的家庭氛围使他养成了热爱读书的习惯,喜欢化学和艺术类书籍,童年时代经常在纽约市立图书馆度过假。中学毕业后,曾做过电焊工和建筑工人,二战时参军做过滑雪兵,战后进入哥伦比亚大学学习化学,1949年获理学学士学位,1954年获哥伦比亚大学图书馆学硕士学位,1955,Science发表论文“Citation Index es for Science”提出“引文索引”的设想,即提供一种文献计量学的工具来帮助科学家识别感兴趣的文献。他提出了引文索引和引文技术的概念,从而打破了分类法和主题法在检索方法中的垄断地位,开创了从引文角度来研究文献及科学发展动态的新领域。

1961年在宾西法尼亚大学获得结构语言学博士学位。 加菲尔德科学交流与信息科学生涯始于1951年。一个偶然的机会,在美国化学家协会100周年庆典上,他结识了韦尔奇医学索引项目负责人,并加入该项目做兼职工作。正是这份工作给他带来了巨大影响,改变了他的人生轨迹。加菲尔德发现他真正感兴趣的不是化学实验,而是查询化学文献。参与韦尔奇医学索引项目的经历激发了他的灵感,他将在项目完成过程中遇到的问题作为自己一生的工作方向。参加该项目的三年中加菲尔德才思泉涌,完成了一生中最重大的理论发现和构想的雏形。由于他的化学知识背景,使得他始终以一个文献检索用户的眼光发现问题,以一个科学家的严谨态度解决问题,以一个文献信息学门外者视角思考问题,因此,其思想远比一个学院派理论家的观点深刻。

(一)加菲尔德定律

加菲尔德定律是在二十世纪六十年代由美国《引文索引》主编E.加菲尔德提出,加菲尔德通过对一些综合性和专业性检索工具中所摘用的期刊数量及收录论文的数量的比研究指出:“一个学科文献的尾部,很大程度上是由其它学科文献的核心部分所组成。事实上学科之间交叉如此之大。以至于所有科学技术学科的核心文献仅仅有1000多种期刊。也可能少于500种。”加菲尔德定律旨在反映科技期刊中的科学论文的交叉程度,论文交叉是严重的。以至数量上相对较少的期刊就集中包括了全部论文数量的大部分。因此,也被称之谓加菲尔德定律(Garfields Law of Concentration)

(二)影响因子

影响因子(Impact FactorIF)是汤森路透Thomson Reuters)出品的期刊引证报告(Journal Citation ReportsJCR)中的一项数据。 即某期刊前两年发表的论文在该报告年份(JCR year)中被引用总次数除以该期刊在这两年内发表的论文总数。这是一个国际上通行的期刊评价指标。影响因子现已成为国际上通用的期刊评价指标,它不仅是一种测度期刊有用性和显示度的指标,而且也是测度期刊的学术水平,乃至论文质量的重要指标。影响因子是一个相对统计量。加菲尔德1972提出。查询外文期刊影响因子,可使用外文数据库Web of Science中的JCRJournal Citation Reports),其中JCR Science Edition用于查询自然科学类期刊,JCR Social Sciences Edition用于查询人文社会科学类期刊。 它隶属于汤森路透集团。该网站需要授权才可访问,需要用大学代理账号。

1、计算方法

   

   影响因子,许多著名学术期刊会在其网站上注明期刊的影响因子,以表明在对应学科的影响力。如,美国化学会志、Oncogene中国大陆各大高校(如清华大学、中国科学技术大学、南开大学、中国农业大学吉林大学哈尔滨工业大学浙江大学上海大学、大连理工大学等)都以学术期刊的影响因子作为评判研究生毕业的主要标准。 影响因子是以年为单位进行计算的。

1992年为例,计算某期刊在该年的影响因子:

   X=以1992年为基点、某期刊于1990和1991年在1992年全部被引用之论文总次数

   Y=以1992年为基点、某期刊1990和1991年全部论文发文量的总和

IF1992年 =(X(1990年,1991年) / Y(1990年,1991年))

1998年,美国科技信息研究所所长尤金·加菲尔德(Eugene Garfield)博士在《科学家》(The Scientists)杂志中叙述了影响因子的产生过程。说明他最初提出影响因子的目的是为《现刊目次,Current Contents》评估和挑选期刊。人们所说的影响因子一般是指从1975年开始,《期刊引证报道》(Journal Citation ReportsJCR)每年提供上一年度世界范围期刊的引用数据,给出该数据库收录的每种期刊的影响因子。JCR是一个世界权威性的综合数据库。它的引用数据来自世界上3000多家出版机构的7000多种期刊。专业范围包括科学、技术和社会科学。JCR是世界上评估期刊唯一的一个综合性工具,因为只有它收集了全世界各个专业的期刊的引用数据,JCR光盘版有许多很好的界面,显示了期刊之间引用和被引用的关系。可以告诉人们,那些是最有影响力的期刊,那些是最常用的期刊,那些是最热门的期刊。除影响因子外还给出:期刊最新排序(Current Rank)、刊名缩写(Abbreviated Journal Title)、国际统一刊号(ISSN)、总引用数(Total Cites)、及时性索引(Immediacy Index)、总文章数(Total Article)、被引半衰期Cited Half-Life)。

2、影响因子种类

影响因子在发展的过程中形成了两个指标:复合影响因子和综合影响因子。复合影响因子是指-----复合影响因子是以期刊综合统计源文献、博硕士学位论文统计源文献、会议论文统计源文献为复合统计源文献计算,综合影响因子是指----综合影响因子主要是指文、理科综合,是以科技类期刊及人文社会科学类期刊综合统计源文献计算这两者都是按被评价期刊前两年发表的可被引文献在统计年的被引用总次数与该期刊在前两年内发表的可被引文献总量之比。

3、影响因子的作用

影响因子及JCR给出的以上指标,具有非常重要的作用,具体地说,对以下各类人员具有多种实用价值。1、图书馆员: 制定文献收藏计划和经费预算,向读者推荐优秀期刊。2、编辑: 了解和掌握自己编辑的期刊的情况,制订有效的编辑规划和办刊目标。3、出版商: 掌握和监测出版动态,掌握出版机会,做出新的出版决策。4、作者(科研人员):a.寻找和确定与自己专业有关的期刊b.确定论文投稿期刊c.证实已经发表自己论文的期刊的水平。5、信息研究分析人员:a.跟踪文献计量学的发展趋势b.研究学科之间及各学科内的引用模式c.研究学术论文生产的学问d.研究专业学科的发展变化趋势。

4、影响因素

   从计算公式看,影响因子虽然只和被引次数和论文数直接相关,但实际上,它与很多因素有密切联系。决定影响因子大小的因素现主要有以下5个方面:(1)论文因素。如论文的出版时滞、论文长度、类型及合作者数等。出版时滞较短的刊物更容易获得较高的影响因子。若刊物的出版周期较长,则相当一部分的引文因为文献老化(超过2年)而没有被统计,即没有参与影响因子的计算,从而降低了影响因子。大量统计资料表明,刊载论文如果是热门课题,且篇幅较短,发表较快,则被引率将很快达到高峰,进而使期刊的影响因子上升很快,然后又迅速下降;刊载完整研究性论文的期刊,持续被引用时间长,影响因子升高较持久。也有资料表明,论文的平均作者数与论文的总被引频次呈显著的正相关。(2)期刊因素。如期刊大小(发表论文数)、类型等。在计算影响因子时,刊载论文数仅统计论文、简讯和综述,而对评论、来信、通讯和其他一些常被引证的栏目的文章则不进行统计。根据经验判断,期刊发表论文数量与影响因子和总被引频次的大小有密切联系。在多数情况下,论文量少的期刊容易得到高影响因子,并且这部分期刊的影响因子在年度之间会有较大的波动;而论文量多且创刊年代久的期刊往往容易得到较高的总被引频次。此外,还与其他引证指标如:即年指标、期刊被引用半衰期、地区分布数、基金论文比以及期刊发行范围和发行量等指标有密切关系。期刊的规模和结构不同会造成期刊影响因子的不同。一般来讲,同种类型的期刊形成的规模越大,这些期刊的影响因子总的来讲就越大;期刊中所含的“热门”课题或“热门”专业的文章越多,总被引频次就越高,同时这种期刊的影响因子也就越大。(3)学科因素。如不同学科的期刊数目、平均参考文献数、引证半衰期等都会对期刊的影响因子和总被引频次产生影响。期刊的影响因子和总被引频次均以论文的引证与被引证的数量关系为基础。一个学科的引文数量,总体水平取决于两个主要因素:一是各学科自身的发展特点;二是该学科期刊在数据库来源期刊中所占的比例。从总体上来说,某学科来源期刊越多,该学科期刊的总被引频次和影响因子就越大。这两大因素决定了学科影响因子和总被引频次分布的不均衡性。生物学期刊一直是SCI期刊中比较引人注目的一类期刊,它不仅在期刊数量上明显多于其他学科,而且在总被引频次和影响因子的数量上也有显著优势,从而说明生物科学在当代科学中所处的重要位置。此外,影响因子还受期刊所涉及的学科在专业意义上的社会覆盖面的影响,如果某个科技期刊在专业意义上的社会覆盖面非常小,而且同类期刊又很少,那么它的影响因子就不可能很高 。不同的学科由于其内在的科研规律不同,在做研究时所需引用他人的科研成果情况就不尽相同。这些区别至少在两个方面会影响到影响因子的大小,一方面的区别是需要引用他人成果多少的情况,另一方面的区别是引用他人成果的时间情况。由于影响因子一般都只按近两年内的期刊中所引用的文献计算,可以看出按近两年内的引文年限分布情况做的排序结果和通过用影响因子方法对杂志的排序结果同样也具有一致性,这同样说明了影响因子不能正确地反应出不同学科期刊之间影响力的大小由于历史的原因,一个国家不同学科的建设和发展都是不平衡的,甚至同一学科中的不同分支也存在这种情况。有的学科规模很小,但从事这一学科的科研人员多,而且对这一学科的资金投入也大,相关的学科杂志也较多,这样就会形成一种规模优势。而往往那些规模较小的学科就不具备这种规模优势,从而这类期刊的影响因子和总被引频次也不会高。就学科规模发展速度的快慢而言,不同的学科有之分。门学科由于时代的需要其规模发展速度是很快的,这种学科的文章在其规模迅速发展的期间将具有很高的被引用率;门学科则正好相反。但是,这种的划分往往并不是出于科学本身的发展需要,而经常是由于经济、社会等一些非科学因素的制约而造成的。还有一些学科包含了许多热门的课题,这些热门课题的文章虽有较高的被引用率,但并不具备多大的科学价值。据以上分析可以认为:这种仅仅因为学科规模的大小和发展速度的快慢而造成的论文被引用率高低的不同,或者是引起相关杂志和机构的影响因子大小的不同,从而造成在重要性的排序上的不同,不是科学木身发展造成的,是其他的一些经济的、历史的和社会的非科学因素造成的,因此对规模小或是专业的学科进行的这种评价是极为不公平的,也是不合理的。(4)检索系统因素,如参与统计的期刊来源、引文条目的统计范围等。对于特定刊物来说,在中外的检索系统中,由于其所收录的期刊群体组成的差异较大,因而所计算的影响因子值有较大的差异,并且同一刊物在不同语种的检索系统中具有明显不同的影响因子和总被引频次。(5)名人效应的影响,名人效应常表现为:一方面人们常引用名人的文章来增加自己文章的权威性,即便是在还有别的更适合自己文章引用的文献时也是这样;另一方面是署有名人名字的文章或被名人所推荐的文章很容易在所谓的高档次的杂志上发表,因而也容易被SCICSCD所收录,且有时文章本没有名人科研成果,却为了能在高级刊物上发表署上了名人的名字,所以过分地强调被引用或收录情况,将给文章的总被引频次和影响因子带来人为的偏差。

(三)科学引文索引(SCI)

   

   SCI全称Science Citation Index,即科学引文索引,加菲尔德博士于1955年提出了引文索引和引文技术的概念,从而打破了分类法和主题法在检索方法中的垄断地位,开创了从引文角度来研究文献及科学发展动态的新领域。作为引文索引的开创者,他改变了全球数百万研究人员的研究过程,使他们能够利用引文索引进行深入研究,跟踪科研发展趋势,评估研究成果。因其对世界科学研究的杰出贡献,加菲尔德博士被科学界誉为“SCI之父”,并于2006 年荣获英国伦敦国际信息产业奖的终身成就奖。他的引文数据库目前已成为科学研究的日常工具——ISI Web of Knowledge 的一部分,全球有2000多万研究人员利用这一数据库进行科学、社会科学、艺术和人文领域的研究当天研讨的题目广泛而深入,加菲尔德博士不但追忆了半个世纪前SCI的诞生历程,而且与听众探讨了SCI这些年的发展和演变,以及SCI在科学研究过程中扮演的角色。他还就中国科学的现状、如何打造高水平的期刊、H指数等新型学术评价工具发表了独特的见解。

   SCI查询中文期刊的影响因子,可使用中国学术期刊(光盘版)电子杂志社和中国科学文献计量评价中心联合推出的《中国学术期刊综合引证报告》(万锦堃主编,科学出版社)。SCI的影响因子一般于每年的6月份公布,由汤森路透统计发布,此为最准确的官方版本,其他网站均以此为版本,只作为参考意义,并非100%准确。PubMed中文网旗下的SCI期刊数据库也可以查询期刊近十年的影响因子及变化曲线,期刊覆盖领域。MedSCIMedSCI也可查询期刊的影响因子,数据来自网友上传,不准确。影响因子并非一个最客观的评价期刊影响力的标准。一般来说影响因子高,期刊的影响力就越大。对于一些综合类,或者大项的研究领域来说,因为研究的领域广所以引用率也比较高。比如,生物,和化学类的期刊,这类期刊一般情况下就比较容易有较高的影响力。影响因子虽然可在一定程度上表征其学术质量的优劣,但影响因子与学术质量间并非呈线性正比关系,比如不能说影响因子为5.0的期刊一定优于影响因子为2.0的期刊,影响因子不具有这种对学术质量进行精确定量评价的功能。国内部分科研机构,在进行科研绩效考评时常以累计影响因子或单篇影响因子达到多少作为量化标准,有的研究人员可能因影响因子差0.1分而不能晋升职称或评定奖金等,这种做法绝对是不可取的。影响因子(Impact factor,缩写IF)是指某一期刊的文章在特定年份或时期被引用的频率,是衡量学术期刊影响力的一个重要指标,由美国科学情报研究所(ISI)创始人尤金·加菲尔德(Eugene Garfield)在1960年代创立,其后为文献计量学的发展带来了一系列重大革新。自1975年以来,每年定期发布于“期刊引用报告”(Journal Citation Reports)。

(四)引文分析

  引文分析Citation Analysis)是利用数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,进而揭示其中的数量特征和内在规律的一种文献计量分析方法。引文分析方法的数学基础是概率论数理统计。在进行分析比较时,已将其作用排除在测度结果之外了。科技文献的引证与其被引证现象进行研究的过程。使用的方法有图论、模糊集合、数理统计等数学方法和逻辑思维方法,目的在于揭示文献所蕴含的情报特征和相关关系。现代科学论文的一个重要特征是,在参考文献标志下依序列出所援引文献的著录事项。参考文献 (被引用文献)与正文(引用文献) 的简单逻辑关系就是引文分析的基础和背景。致力于引文分析理论和技术研究的文献学家主要有格罗斯.布朗等。普赖斯1956年发表重要著作《科学论文的网络》,为引文分析奠定理论基础,E.加菲尔德于1953年受法律业务工具书《谢泼德引文》的启发,于19611963编成《科学引文索引》(SCI),使引文分析具备了实用的工具。引文分析适于探索科学的微观结构,便于超越时间空间,跨学科组织文献,同传统的分类法和主题法截然不同,使文献有序化,有利于对文献由表及里地深入展开分析,更易于量化。引文分析中还有一些辅助概念,运用也较普遍:文献耦合。一篇参考文献被两篇文献引用便构成一个引文偶,引文偶愈多,说明两篇文献关系愈密切。同被引。两篇论文共同被后来的一篇或多篇论文所引用的现象,其量度是同被引强度,即两篇(或多篇)文献同被后来的文献所引用的频次,显然,同被引频次愈高,两篇论文相关性愈强。自引。作者引用自己以前发表的独撰与合撰论文的现象,自引还可以扩展到杂志、学科、地区、团体乃至国家对文献的反身自用。引文分析主要用于指导编制各种新型检索工具,为科学管理提供量化的依据,探讨科学的结构,评价与选择期刊,考察科学著作及科学家的社会影响等。关键是开发或引进更为有效的分析方法。

1、引文分析的类型

   

   从不同的角度和标准来划分,引文分析方法有着不同的类型。如果从获取引文数据的方式来看,有直接法和间接法之分。前者是直接从来源期刊中统计原始论文所附的被引文献,从而取得数据并进行引文分析的方法;后者则是通过科学引文索引SCI)、期刊引用报告JCR)等引文分析工具,查得引文数据再进行分析的一种方法。若从文献引证的相关程度来看,则有自引分析、双引分析、三引分析等类型。如果从分析的出发点和内容来看,引文分析大致有三种基本类型:

  (1引文数量分析:主要用于评价期刊和论文;研究文献情报流的规律等。

  (2从引文间的网状关系或链状关系进行研究:科学论文间存在着一种引用关系网,AB, BC, C又被A引等。研究这种关系主要用于揭示学科的发展与联系,并展望未来前景等。

3从引文反映出的主题相关性方面进行研究:主要用于揭示科学的结构和进行文献检索等。

2、引文分析的主要内容

   从不同的角度或从各种基本要素出发,对科学引文的分布结构进行描述和分析,便形成引文分析的基本内容,一般包括:

  1引文年代分析一般来说,随着年度的由远而近,引文量呈增长趋势,即时间愈近,被引用的文献愈多;文献被利用的峰值是该文章发生以后的第二年。如果以引文年代为横轴,各年引文量为纵轴,在坐标图上描绘各年数据点,然后用一条线连接起来,便可得到一条引文年代分布曲线。通过对该曲线的分析,不仅可以了解被引文献的出版、传播和利用情况,而且可以研究科学发展的进程和规律,特别是在文献老化和科技史的研究中,引文年代分析更是一种广泛应用的有效方法。

  2引文量分析引文量是某一主体对象含有的参考文献数量。它是引文链的基本特征之一。通过引文数量的分析,不仅可以揭示文献引证与被引证双方的相互联系,而且还可以从定量的角度反映出主体之间的联系强度。如果两篇论文或两种期刊之间的引文数量大,就可以认为它们之间的引证强度大,说明其联系较紧密。引文量的分布规律可从下列几个方面分析:

    A引文量的理论分布:我们将一定量的论文的引文量数据进行分析比较,发现其变化规律表现为以平均数为中点,接近中点的频数最多,离平均数远的频数趋于减少,形成中间高两极低的正态理论分布。

    B引文篇数分布:即每篇研究论文平均占有的引文篇数的分布。它不仅反映了论文作者引用文献的广度和深度,而且还能说明引文与被引文的学科内容之间的联系强度。

  3集中与离散规律分析引文分布的集中性与离散性是相对于一定的测度指标而言的。引文按来源期刊的分布,引文篇数的频数以平均数为中心的分布,引文按年度、语种、文献类型等的分布,都表现出这种集中与离散的趋势。

  4引文类型分析科学研究中引用的文献很广,有期刊论文、图书和特种文献。对被引文献的类型进行分析,将有利于确定文献情报搜集的重点。

  5引文语种分析引用文献是由不同语种的文献构成的。某一语种的文献被引用量愈大,则说明该语种比较常用和重要。考察和分析引文语种的分布,对于人们有计划地引进外文文献、译文选题、外语教育等,颇有参考价值。

  6引文国别分析对引文的国别分析,特别是各国文献互引情况的统计分析,可以探明各国互引文献的状况,弄清国际文献交流的数量和流向。

3、引文分析的常见特点

   1广泛适用性引文分析的素材是引文与被引文,而引文现象又是普遍存在的。以期刊论文为例,全世界范围约有90%以上的科学论文附设了引用文献,平均每篇论文有引用文献15篇。我国当今88%左右的重要科学论文带有引用文献,平均每篇中文科学论文有引用文献8.9篇,可以说,凡是有引用文献的地方,引文分析方法就有用武之地,所以,引文分析方法具有广泛适用性。

  2简便易用性由于引文分析不要求其它先决条件和辅助条件,不需要使用者具有十分专深的知识,研究的深度、广度可以由自己控制,所以一般的信息人员都可以借助于这种方法,完成一些有价值的研究课题,解决一些工作中的实际问题。总之,这种方法的使用限制极少,简便易用,很值得在广大的信息人员中普及推广。

  3功能特异性由于引文分析方法具有广泛适用性和简便易用性的特点,通过一些不太复杂的统计和分析,就可以确定核心期刊、研究文献老化规律、研究信息用户的需求特点,甚至可以研究学科结构、评价人才等,我们不能不为其功能而感叹。

4、引文分析的限性

   著者引用文献是一个人为控制的思维和判断过程,而作为其表现形式的引用文献,仅仅是宏观的、表面的测度,受到许多限制因素的影响。

  1关系上假联系的影响引用文献的原因多种多样,两篇论文可能出于完全不同的原因或从不同的角度引用同一篇早期文献,一篇可能是引用其方法,另一篇可能是引用其结果,那么这两篇文献在内容上的联系就有可能是虚假的。引文有些是发生在前言和篇名中;有些是发生在正文中;有些发生在结论或讨论中。在这些情况下,作者对原著的引用内容和程度是不相同的。引文对原著的关系和重要性也各不相同,但在的引文分析中,对它们都是同等看待,不加区分的。这样也容易造成成假关系。新刊的论文得不到大量引用;小型期刊被引率往往低于大型期刊;引而未用或用而未引的情况也时有发生。文献引用中的这些现象都会影响引文分析方法的应用和效果。

  2马太效应的影响有的研究者认为,在文献引用方面也存在着马太效应的影响。人们往往以名著权威作为选择引文的标准,有的确是出于需要,也有的则是为了装饰门面,抬高自己论文的身价。一种期刊因为发表名人的文章而为众人所引用,以至引起连锁反应,结果其引文率很高。这种马太效应的心理作用,掩盖和影响着文献引用的真实性。

5、引文分析的测度指标

   一般来说,对科学期刊进行分析时常用的测度指标有五种:即自引率、被自引率、影响因子、引证率与当年指标。在对专业和学科结构进行研究时,除用引证率外,还可用引文耦合和同被引等测度指标。

  (1自引率在引用文献的过程中,限于主体本身范围内的引用称之为自引。包括同一类学科文献的自引、同一期刊文献的自引、同一著者文献的自引、同一机构文献的自引、同一种文献的自引、同一时期文献的自引、同一地区文献的自引。自引率就是对主体本身范围内文献引用的次数与主体引用的文献总数的比值。

  (2被自引率:这是被引用现象的一个测度,被自引率就是主体文献被自引的次数与主体被引用的总次数的比值。它反映出被引用中有多少是被自己引用的。

  (3影响因子:主要在研究科技期刊时使用,等于期刊在规定时间内(一般是两年)论文被引量与可引论文总数之比。

  (4引证率:期刊引证率等于该刊中参考文献量除以期刊载文量。这是衡量吸收文献能力的一个相对指标。

  (5即时指标:这是测度期刊被引用速度的指标,它是期刊某年发表的论文当年被引用的次数,除以该刊这一年所发表文章的总数,是衡量期刊重要性的一种依据。

  (6引文耦合:当两篇文章同时引用一篇或多篇相同的文献时,这种现象称引文耦合,这两篇文献就具有耦合关系。引文耦合的文献之间总存在着这样或那样的联系,其联系的程度称为耦合强度。

  (7同被引:当两篇(多篇)论文同时被别的论文引用时,则称这两篇论文具有同被引关系,引用它们的论文的多少,即同被引程度,称为同被引强度。

6、引文分析的应用领域

   引文分析技术日趋完善,应用不断扩大,已发展成为文献计量学的重要方法之一。引文分析方法的应用主要有以下几个方面:

  (1测定学科的影响和重要性:通过文献引用频率的分析研究可以测定某一学科的影响和某一国家某些学科的重要性。

  (2研究学科结构:通过引文聚类分析,特别是从引文间的网状关系进行研究,能够探明有关学科之间的亲缘关系和结构,划定某学科的作者集体;分析推测学科间的交叉、渗透和衍生趋势;还能对某一学科的产生背景、发展概貌、突破性成就、相互渗透和今后发展方向进行分析,从而揭示科学的动态结构和某些发展规律。

  (3研究学科信息源分布:通过文献间的相互引证关系,分析某学科(或专业)文献的参考文献的来源和学科特性,不仅可以了解该学科与哪些学科有联系,而且还能探明其信息的来源及分布特征,从而为制定本学科的信息管理方案和发展规划提供依据。

  (4确定核心期刊:引文分析方法是确定核心期刊的常用方法之一。这种方法的主要特点,是从文献被利用的角度来评价和选择期刊的,比较客观。加菲尔德通过引文分析,研究了文献的聚类规律。他将期刊按照期刊引用率的次序排列,发现每门学科的文献都包含有其它学科的核心文献。这样,所有学科的文献加在一起就可构成一个整体的、多学科的核心文献,而刊载这些核心文献的期刊不过1000种左右。利用期刊引文的这种集中性规律可以确定学科的核心期刊。

  (5研究文献老化规律:有关文献老化的研究一般是从文献被利用角度出发的。D.普赖斯曾利用引文分析探讨文献的老化规律。通过对当年指标期刊平均引用率的分析,他认为期刊论文是由半衰期绝然不同的两大类文献构成的,即档案性文献和有现时作用的文献。科学文献之间引文关系的一种基本形式是引文的时间序列。对引文的年代分布曲线进行分析,可以测定各学科期刊的半衰期最大引文年限,从而为制定文献的最佳收藏年限、对文献利用进行定量分析提供依据。同时,一个学科的引文年代分布曲线与其老化曲线极为相似。这有力地说明文献引文分布反映了文献老化的规律性。因此,从文献引用的角度研究文献老化规律是一种有效的途径和方法。

  (6研究信息用户的需求特点:利用引文分析方法进行信息用户研究是一种重要途径。根据科学文献的引文可以研究用户的信息需求特点。一般来说,附在论文末尾的被引用文献是用户(作者)所需要和利用的最有代表性的文献。因此,引文的特点可基本反映出用户利用正式渠道获得信息的主要特点,尤其是某信息中心对其所服务的用户所发表的论文的引文分析,更具有直接的指导意义。通过对同一专业的用户所发表的论文的大量引文统计,可以获得与信息需求有关的许多指标,如引文数量、引文的文献类型、引文的语种分布、引文的时间分布、引文出处等。

  (7评价人才:在人才评价方面,常采用引文分析方法。这是因为某著者的论文被别人引用的程度可以是衡量该论文学术价值和影响的一种测度,同时,也从科研成果被利用的角度反映了该著者在本学科领域内的影响和地位。因此,引文数据为人才评价提供了定量依据。从对历年诺贝尔奖金获得者的论文被引用情况的统计来看,物理学、化学、医学领域中诺贝尔奖金获得者中,其论文被引次数最高者(L.D.Landan)为1888次;最低的也有79次(J· H· D· Jensen);只有六名低于 200次。可见,这些科学界的精英的论文的引用次数是很高的。

   总之,从洛特卡定律、布拉德福定律、齐弗夫定律、到普赖斯定律、再到加菲尔德定律。以上这些定律并不是独自不相关的,而是互有联系。是科技期刊流通和管理过程研究的发展。这一发展过程与科学技术发展过程是基本一致的。科学技术从早期的综合混合,到中期的分散细分,再到现在的相互渗透、相互交叉,相互综合。科技期刊的发展过程也是这样,从早期的综合,到中期的专业化,再到现代的内容相互交叉、相互渗透。因此,对科技期刊的管理和流通工作研究的发展上看,也是符合从集中到分散再到集中规律,也是符合自然规律发展过程的。



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多