配色: 字号:
第5章 网络信息资源检索基本知识
2022-12-13 | 阅:  转:  |  分享 
  
第5章 网络信息资源检索基本知识 学习目标: (1)了解并掌握信息检索与网络信息检索的基本原理;(2)了解检索语言中的分类,分类检索
语言与主题检索语言的基本概念、特点;(3)了解并能灵活运用主要的检索方法技术,提高检索效率;(4)了解并掌握网络信息检索的全部过程
,提高检索的检准率与检全率。2017/8/22 5.1信息检索原理 “信息检索”概念:从广义的角度理解,包括了信息的存储和检索两个
过程。狭义的角度理解仅仅包括检索的过程。信息的存储就是将搜集到的一次信息,经过著录其特征(如题名、著者、主题词、分类号等)而形成款
目,并将这些款目组织起来成为二次信息的过程。信息的检索是针对已存储好的二次信息库进行的,是存储的逆过程。2017/8/222017
/8/22信息检索原理图 原始文献信息需求存储信息特征提取检索提问特征表达检索标识系统存储信息特征标识检索提问特征标识标识排序标
识匹配检索系统信息存储(标引)过程信息检索过程5.2检索语言1.检索语言的概念 检索语言又称情报语言、检索语言、文献语
言、标引符号、标识系统;是根据文献检索的需要而创制的专用人工语言;是表达一系列概括文献内容的概念及其相互关系的概念标识系统;专门用
于各种手工的和计算机化的文献情报存贮检索系统。2017/8/222017/8/22按检索标识规范化来划分 检索语言可以分为自然语言
检索标识:著者姓名、题名、会议名称、机构号、标牌号、专利号和关键词。 规范语言检索标识:分类号、类名、标题词和叙词。 将信息需求
者的自然语言转化成系统规范化的检索语言对检索的成功与否关系极大。2017/8/22在编制检索工具时,标引人员要对各种文献进行分析,
把它们所包含的内容要点都分析出来,使之形成若干能代表文献内容的概念,并用规范化的语言如叙词、标题词或分类号把这些概念标示出来,纳入
检索系统中。检索时,用户要对提问进行主题分析,使之形成能代表信息需求的概念,并把这些概念转换成系统能接受的语言,然后才能从系统中得
到用这些规范化语言所标引的文献。2017/8/22按结构原理划分 检索语言可以分为两大类描述文献外表特征的检索语言:著者姓名、题名
、报告号、标准号、专利号、档案号等。 描述文献内容特征的检索语言:分类号、叙词、标题词和关键词等。表述内容特征的语言与表达外表特征
的语言相比较,在揭示信息特征与表达情报提问方面更具有深度。 2017/8/222017/8/225.2.1分类检索语言 分类语言
是以学科体系为基础,用号码作为概念标识,按分类编排的检索语言。是按照知识分类和概念逻辑的方法对信息进行区分和归类。分类语言建立在科
学分类的基础上,运用概念划分与概括的方法,将大大小小的概念进行层层划分,逐级划分就产生许多不同级别的类目。所有不同级别的类目,层层
隶属,形成了一个严格有序、层次分明的知识门类等级制体系。每一类目分别以不同的符号作标志,每个分类号都是表达特定知识概念的语词,即分
类语言的语词。这种标志就是分类语言。大多数分类都是根据该语言编制而成的。 2017/8/222017/8/22分类语言包括以杜威为
代表的等级体系分类语言(体系分类法)以阮冈纳赞为代表的分析--综合分类语言(分面组配分类法) 分面组配分类法:一般只限于一个
比较窄小或比较单纯的专业范围使用。它由若干个面构成,这些面都是基本范畴,都可以作为检索的途径,而无主次之分。2017/8/221、
体系分类法体系分类法定义: 是一种直接体现知识分类的等级制概念标识系统,是对概括文献情报内容及某些外表特征的概念进行逻辑分
类和系统排列而成的。2017/8/22是按学科、专业集中文献,并从知识分类角度揭示各类文献在内容上的区别和联系,提供从学科分类检索
文献情报的途径。是由成千上万个类目构成的。 所谓“类”,是许多具有某种(或某些)共同属性的事物的集合。2017/8/22例
:《中国图书馆图书分类法》 简称《中图法》。它是我国大陆地区使用最广的图书分类法,约有90%左右的图书馆使用该分类法。 1973年
3月完成初稿,1980年修订出版了第二版,1990年2月出版了第三版,《中图法》(第四版)改称《中国图书馆分类法》,于1999年正
式出版。2010年8月国家图书馆出版社出版第五版 类号标记是采用字母数字混合制,即用一个或两个拉丁字母和一串阿拉伯数字来代表一个具
体的类目。它有5大部类,22个基本大类,6个总论复分表,30多个专类复分表,4万余条类目组成完善的分类体系。 2017/8/222
017/8/222、组配分类法组配分类法是体系分类法的发展,为了克服体系分类法的列举式列类方法所造成的不能无限容纳概念的局限性及它
的类目的单线排列方式所造成的“集中与分散”的矛盾。使用组配分类法可以从很高的专指度上来标引一篇文章,也可以从很高的专指度或较低的专
指度及从多种角度查到所需要的那篇文章。2017/8/22补充:列类方法(体系分类法中)14个分类:正常列类法、列举列类法、重点列类
法、罗列列类法、对应列类法。。列举列类法:采用某一分类标准列子目,其总和少于被划分的上位类,未列的入“其他”类概括。复分表(体系分
类法):将一系列类目所具有的相同子目从主表中抽出来单独编制成的辅表,在进行分类标引时,将主表的分类号与辅表的分类号加以组合,构成一
个具体的分类号,表达一个具体的概念。 例:分类号K9(地理)和世界地区表中的复分号313(日本)组合,构成“K931.3日本地
理”子目----概念的分析与综合2017/8/22概念及构成原理组配——把两个或多个主题概念,按照一定的规则组合起来,表达一个更专
指的主题概念,叫组配。组配分类法的构成:基于概念的可分析性和可综合性。一个复杂概念可以分析为为若干简单概念(或概念因素),若干简单
概念可以综合成一个复杂概念。2017/8/22一部有四个面的组配分类表2017/8/22利用组配分类 表来标引这10篇文献,可以实
行轮排,从多角度检索文献。(1)公共图书馆对马列主义的宣传 A45B2C1(2)省图书馆的参考咨询工作 A46B21
(3)期刊编目法 A3D2
(4)县图书馆中农业期刊的宣传 A45B22C6D2(5)儿童图书
馆设备 A6B6
(6)高等学校图书馆的读者工作 A4B5(7)省图书馆期刊阅览室工作 A4
1B21D2(8)儿童读者的阅读辅导 A45B6D6(9)省图书馆视听资料的编目 A
3B21D8(10)县图书馆的期刊阅览工作 A41B22D22017/8/222017/8/225.2.2主题语言(主
题法) 主题语言:直接以代表文献内容特征和科学概念的概念词作为检索标识(使用词语标识),并按其外部形式(字顺)组织起来的一种检索语
言,又称主题法。主题语言是一种描述语言,即用自然语言中的名词、名词性词组描述事物概念的中心语义。2017/8/22主题语言包含两个
内容:一是指表达信息内容特征的、经过规范化了的名词术语(包括词组和短语);二是把这些名词术语按字顺排列成主题记号表或主题词表,以此
作为规范语词标引和检索信息的工具。主题词有三个基本特征:①着眼于从事物的特性方面去提示文献主题;②采用文字符号;③按字母顺序排列;
2017/8/221、标题词语言(Subject Heading Language) 最早使用的一种主题语言。标题词语言是使用一
个或者一组规范化的自然语言(经过标准化处理的名词术语)作为检索标识来直接描述文献内容特征,表达文献涉及的主题概念,并将全部标识按字
母顺序排列的标识语言,是一种先组式的词汇标识系统。在标题下,常常集中了关于一种事物的许多方面的资料,涉及到相当于分类法中的好多个类
目的范围.如在“羊”这个标题下,就可能包括羊的生理、解剖、遗传、选种、育种、繁殖、饲养管理、育肥、饲料、放牧、疾病及其防治、用途以
及畜牧经济等方面的资料。而这些资料如果集中在同一个标题下而不加以区分,对检索也会造成困难,导致甄别量增加,而检索率降低。2017/
8/222、单元词语言 单元词是指一个个最小、最基本的,其概念不可再分的词汇单位,能够用来描述文献所论及或涉及的事物的那些单词,是
经过规范化处理的自然语言,无词表。后组式标识全组配是单元词法的重要特点。检索时,根据检索课题的需求,选取恰当的单元词进行组配检索。
检索美国化工专利使用的《化学专利单元词索引》就是一例。 2017/8/224、关键词语言(Keyword Language)关键词
语言是以关键词(自然语言)作为文献内容标识和检索入口的一种主题语言。关键词语言广泛地用于手工检索和计算机检索。 5.3检索方法与技
术 5.3.1 信息检索方法1、浏览法 浏览是对信息结构的一种随意的探查,是发现信息及信息线索的重要手段,分为文字浏
览、视频浏览、图像浏览、基于事件和叙事的浏览等。通过浏览选择其中所需或相近的内容,可作为进一步查询的依据,或者可以有效地启动一项需
求更明确的检索。网上浏览往往同航行结合起来操作,即沿着一条条链,从一个视图切换到另一个视图,通过一系列的查看和选择操作发现所需信息
。 ? 2017/8/222、查询法 (1)基于关键词的查询:如单词查询、词组查询、近似查询、布尔查询、自然语言查询;(2) 模式
匹配:基于模式的概念,允许对某种特性的文本片段进行检索。(3) 结构查询:有的信息线索不是包含在文档的内容之中,而是包含在结构之中
,如邮件的发送者、接受者、日期、标题等构成一组固定的“域”,用户可以针对这些域进行搜索,这是固定结构查询。(4) 基于内容的查询:
包括一般属性查询(如媒体描述信息)、感知特征查询(如颜色、纹理、形状)、概念查询、时空结构查询等。2017/8/223、引文法(追
踪法)? 文献之间的引证和被引证关系揭示了文献之间存在的某种内在联系,引文法(也有称为跟踪法)就是利用文献后所附的参
考文献、相关书目、推荐文章和引文注释查找相关文献的方法。这些材料不仅指明了与读者需求最密切的文献线索,而且往往包含了相似的观点、思
路、方法,具有启发意义。2017/8/22 引文法又可分为两种,一种是由远及近地搜寻,即找到一篇有价值的论文后进一步查找该论文被哪
些其它文献引用过,以便了解后人对该论文的评论、是否有人对此作过进一步研究、实践结果如何、最新的进展怎样等等。另一种较为普遍的查法是
由近及远地追溯,这样由一变十,由十变百地获取更多相关文献,直到满足要求为止。这种方法适合于历史研究或对背景资料的查询, 其缺点是越
查材料越旧,追溯得到的文献与现在的研究专题越来越疏远。2017/8/224、时序法 利用常规检索工具按照时间顺序查找有关
文献的方法。可以用顺查法、逆查法和抽查法查找所需信息。 顺查法是以课题研究的起始年代为出发点,利用选定的检索工具如书目、
索引、文摘由远及近地逐年查找。 逆查法则相反,是由近及远地查找,起点是从最近发表的文献开始,直到设定终止的年代或查到所
需资料为止。 抽查法是基于这样一个规律来查文献的,即任何一门学科的专题研究大体都像波浪起伏般地发展,时而高潮,时而低潮。
由于兴旺时期发表的文献量大,各种学术观点较为集中,如果针对课题研究处于兴旺时期的若干年查找,则付出较少的时间可获得较为满意的检索结
果。2017/8/225、排除、限定和合取法 排除法:移植到检索中就是在时间或空间上极大地收缩检索范围。 限定法:
相对于排除法而言的,排除的结果必然是限定,即指对查找对象在时间和空间上加以内在的肯定。 合取法:如果把不同资料中涉及所需信息
的记载都裁取下来,汇集在一起,再经过去粗取精、去伪存真的加工,构成一个完整的答案。 2017/8/222017/8/225.3.2
信息检索技术1、布尔逻辑(1)逻辑“与”:逻辑“与”可用“AND”或“”表示,检索词用“AND”或“”相连,含义是检出的记录
中同时含有所有检索词。逻辑“与”运算符的基本作用是对检索词加以限定,逐步缩小检索范围,减少命中文献量,提高检索结果的查准率,适用于
不同概念组面之间以及同一组面内不同含义的词之间的组配。2017/8/22(2)逻辑“或” 逻辑“或”可用“OR”或“+”表示
,检索词用“OR”或“+”相连,含义是检出的记录中,至少含有检索词中的一个。逻辑“或”算符的基本作用是扩大检索范围,增加命中文献量
,防止漏检,提高检索结果的查全率。适用于同义词或同族概念的组配,如同义词、近义词等。2017/8/22(3)逻辑“非”:逻辑“非”
可用“NOT”或“-”表示,检索词用“NOT”或“-”相连,表示排除“NOT”或“-”算符后的词语,检出含有算符前检索词的所有记
录。逻辑“非”算符的基本作用是缩小检索范围,减少文献输出量的作用,但不一定能提高文献命中的准确率。同时应注意在有两个以上运算符的复
杂逻辑式中,“NOT”出现次数不能太多,否则检出结果极少,影响检出效果。2017/8/22(2)优先处理算符 优先处理算符
用“()”表示,含义是优先对()内的算符进行逻辑运算,在实际检索中,有时要调整逻辑运算符的运算顺序,使某些算符优先进行逻辑匹配,或
者是简化逻辑算式,在这些情况下,将使用算符“()”。2017/8/223、邻接算符 邻接算符又称词位置逻辑检索符、全文查找
逻辑算符,相邻度检索算符,原文检索符。 ( 1)(W) W的含义是“With”,其用法为A(W)B,表示(W)前后所连接的
A、B两个检索词在检出结果中必须紧密相邻,且词序不能颠倒。2017/8/22(2)(nW) W的含义是“Word”,n代表单
词个数,用法为A(nW)B,表示A、B两词之间允许插入最多为n个的其他词语,插入词可以是实词或系统禁用词,同时A、B两词的前后顺序
保持不变。2017/8/22(3)(N) N的含义是“Near”,用法为A(N)B,表示在检出结果中A、B两词必须紧密相邻,
并允许词序发生颠倒。2017/8/22(4)(nN) N的含义仍是“Near”,用法为A(nN)B,表示A、B两词之间允许
插入最多为n个的其他词语,插入词可以是实词或系统禁用词,两词的前后顺序可以颠倒。2017/8/224、字段限制 在联机数
据库或光盘数据库检索系统中,都提供字段限制的检索功能,其作用是检索范围限定在某一字段内如题目、作者等。以DIALOG检索系统,基本
字段限制为四个:题目(TI)、叙词(DE)、标引词(ID)、文摘(AB)。2017/8/225、截词算法 截词检索是利用检索
词的词干或不完整的词形查找信息的一种检索方法。用户可以在检索式中用截词符号(如“”、“?”或“$”等等)表示检索词的某一部分允许
有一定的词形变化,而不必输入完整的检索词。2017/8/22(1)按截断的字符数量划分,截词检索可以分为有限截词和无限截词。
有限截词,又称有限截断,指对词干以外可以出现的字母数量进行限定。如:studen??,截词符“??”表示检索含有stude
n和studen后只跟有两个字母的检索词的文献。无限截词,又称无限截断,指对词干前后出现的字母数量不作限定,一切与输入的词干相匹配
的字符串,不论词干后或词干前是什么字符串、有多少字符串都属于要检索的信息。2017/8/22(2)按截断的位置划分,截词检索可以分
为前截词、后截词、前后截词和中间截词。前截词,又称左截词,前截断,允许检索词的前端有一定形式的变化。这实际上是一种后方一致的检索,
对汉语中的复合词组的检索非常方便。后截词,又称右截词,后截断,允许检索词的尾部有若干形式的变化。这实际上是一种前方一致的检索。20
17/8/22前后截词,又称前后截断,检索词中间一致,任意一致,检索词中只要出现指定的词干即为合法检索词。这实际上是一种比较宽的模
糊检索。 中间截词,又称嵌入式截词,中间截断,嵌入式截断,指在检索词中间嵌入截断符号(有的系统用?,有的用),允许检索词中间有若
干形式的变化。2017/8/226、词组或短语检索 词组或短语检索是一般数据库中最常用的方法。在网络信息检索工具中。在检索框中输
入两个或两个以上的检索词,这两个检索词之间又不加任何符号,那么检索工具会将这两个检索词之间的关系设为默认值(有的默认值为AND,有
的默认值为OR)。如要将这两个或多个检索词作为一个词组或短语进行检索,中间不允许插入任何字符,就必须使用一定的符号来表明这是词组或
短语,最常用的符号是双引号“”或括号( )。2017/8/227、加权检索 加权检索的基本方法是:在每个检索词后面给定一个
数值,表示其重要性程度,这个数值称为权值。通过加权明确了各检索词的重要程度,使检索更有针对性,并且能依据权值的大小,对命中记录的重
要性进行排序。检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值之和。只有当数据库记录的权值之和达到或超过
预先给定的阈值时,该记录才算命中。2017/8/228、区分大小写检索 如果同时检索两个或两个以上的人名或机构名称,就要用逗号
将其隔开。区分大小写检索功能有利于提高检索效率。 5.4检索过程 5.4.1分析信息需求明确检索目的明确课题的主题或主要内容课题涉
及的学科范围2017/8/22 5.4.2 选择与使用检索工具 1、选择检索工具的原则:学科属性是考察检索工是否合适的首选因素了解
检索工具收编的范围和特色收藏清楚检索工具的检索方法和系统功能了解并有效利用检索系统的手段和辅助工具信息需求的检索范围2017/8/
222、常用的检索工具的类型:网络数据库、搜索引擎、网络指南、学科导航、网站、印刷本检索工具国内综合类网络数据库可以分为五种类型公共图书馆及情报所服务的数据库资源中科院系统提供的网络信息资源高校系统国内主要数据库生产商其它专业系统 2017/8/22国外综合类网络数据库数据库生产商提供的数据库系统期刊出版商提供的数据库系统工具书出版商提供的数据库系统公共图书馆提供的数据库系统2017/8/22 5.4.3制定检索策略 1、检索词的确定2、评估检索结果3、检索策略的优化2017/8/22 5.4.4 获取原始文献 可以保存、打印、E-MAIL发送提供通用的文件格式引文统计服务全文链接的服务方式可以分为两类。 一类是从索引、文献到全文的链接 一类全文链接服务称为基于CrossRef的引文链接2017/8/22 思考题 1、对于信息检索全过程的理解是什么。2、如何认识信息检索语言,由几部分组成。3、检索语言按检索标识规范化的分类。4、检索语言按结构原理的分类。5、常用的信息查找方法有哪些,试举例说明。6、主要的信息检索技术有哪几种。7、试述检索策略的制定和实施过程。8、如何确定检索词,试举例说明。9、从哪些方面可以评估检索结果。10、如何获取原始文献。2017/8/22
献花(0)
+1
(本文系籽油荃面原创)