配色: 字号:
第二章 信息检索基础 2
2013-12-04 | 阅:  转:  |  分享 
  
第四节计算机信息检索概述一、计算机信息检索概况计算机信息检索是指利用个人计算机或计算机网络终端,运用特定的检索指令将检索提问标识输入计算机,在计算机检索系统的数据库中查询和输出所需信息的过程。计算机检索分为信息存储和检索两个过程。历史1.脱机检索阶段(1954-1964)2.联机检索阶段(1965-)3.光盘检索(1985-)4.网络检索(1990-)二、计算机检索原理和特点(一)检索原理数据库:数据库是存储文献信息的仓库,是在存储设备上合理有效信息的集合。记录和字段:是构成数据库的信息单元,每条记录都描述了一个信息体的外表和内容特征,描述和构成记录的各个数据项叫字段,如题名字段、著者字段等。(二)计算机检索特点1.检索速度快2.内容新3.范围广4.途径多、功能完善5.操作简单、易用6.不受时空的限制7.检索结果的输出方式丰富多样三、计算机检索基本技术(一)布尔逻辑运算:and、or、not(二)截词检索:、?、#。如,smok、apple?。(三)位置运算:(W)和(nW)、(N)和(nN)、(F)、(S)等如,information(3W)retrieval(四)限制检索:solarenergyintisolarenergy/ti(一)布尔逻辑检索利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元(或检索标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。主要通过“与(and,)”、“或(or,+)”、“非(not,-)”等将检索词联络起来。逻辑算符举例查找关于“动物保护”的文献:“动物”和“保护”可以用“逻辑与”组配,表示为“动物AND保护”,检出记录中既涉及动物又涉及保护的相关文献。查找有关冬虫夏草的文献:冬虫夏草又称冬虫草、虫草,“冬虫夏草”、“冬虫草”、“虫草”三者要用逻辑或组配,表示为“冬虫夏草or冬虫草or虫草”,检索出文献中包含三者任意一种即被检出。查找关于国外建筑特色的文章:国外即不包括中国,建筑和中国之间为逻辑非的关系,表示为“建筑not中国”,检索结果排除了中国建筑的相关文献。检索西红柿种植技术的相关文章:西红柿”又称“番茄”,表示为“西红柿+番茄”;“种植”的同义词有“栽培”、“培育”,表示为“种植+栽培+培育”;检索表达式为:(西红柿+番茄)(种植+栽培+培育)(二)截词检索截词检索(truncationretrieval)是指在检索词的适当位置截断,用截断的词的一个局部进行的检索。由于检索词与数据库所存储信息字符是部分一致性匹配,所以又称部分一致检索。由于西文的构词特性:单复数形式不一致、英美拼写不一致、前缀+词干、词干+后缀。检索时,计算机会将所有含有相同部分标识的记录全部检索出来。在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。按截断的位置来分;按截断的字符数量来分。截词符多采用通配符“?”、“”、“$”等,因此,截词检索有时也称为通配符(wildcard)检索。按截断字符数量:有限截断:computer??(0-1个字符);coputer??(0-2个字符);computer???(0-3个字符。无限截断:computer?(0-N个字符)按截词算符位置:前截词:?computer后截词:computer?前后截词:?computer?中间截词:wom?n注:不同的数据库所用的截词符不一样,使用应先查一下各数据库的帮助加以确认。Webofscience数据库:星号()表示任何字符组,包括空字符。如:Gene可检索到Gene,Genes,General,Generation;问号(?)表示任意一个字符。如:Car?可检索到Cars,Care;美元符号($)表示零或一个字符。如:Cell$可检索到Cell,Cells,Cello。OVID平台(三大农业、BP数据库等)“$”或“”,置于词尾,代表0到多个字符,但词根不能太短。“$1”为0或1个字符,只能在词尾。“#”,可置于词尾或中间,仅代表1个字符。(三)位置检索位置检索又称为“邻近检索”、“词位检索”是一种可以不依赖叙词表而直接使用自由词进行检索的一种技术,它以数据库原始记录中词语的相对次序或者位置关系为对象进行组配运算。检索“生物防治”的文献,若用检索式“biologcalcontrol”检索,则会将“抑制生理”(controlbiological)的文献也查出来。(W)与(nW)算符(W)算符是“With”的缩写,表示此算符两侧的检索词必须按此前后邻接的顺序排列,顺序不可颠倒,而且检索词之间不允许有其他的词或字母,但允许有空格或连字符号。例如:输入gas(W)condensate可检索出包含gascondensate和gas-condensate的记录。(nW)算符是“nWords”的缩写,表示此算符两侧的检索词之间允许插入n个实词或虚词,但两个检索词的次序还是不能颠倒。例如:laser(1W)printer可检索出包含“laserprinter”、“lasercolorprinter”和“laserandprinter”的记录。(N)与(nN)算符(N)算符是“Near”的缩写,表示此算符两侧的检索词彼此必须相邻接,但两个检索词的前后关系可以颠倒,即查找两个连在一起的单词,但两词之间不能插入任何词。例如:money(N)supply可检索出包含moneysupply和supplymoney两个词组的记录。(nN)算符是“nNear”的缩写,表示此算符两边的检索词之间插入词的最多数目是n个,且两个检索词的次序可以任意颠倒。例如:economic(2N)recovery可以检出包含economicrecovery、recoveryoftheeconomy的记录。(S)算符(S)算符是“Sub-field/Sentence”的缩写,表示在此运算符两侧的检索词只要出现在记录的同一个子字段内(例如在文摘中的一个句子就是一个子字段),此信息即被命中。要求被连接的检索词必须同时出现在记录的同一句子(同一子字段)中,不限制它们在此子字段中的相对次序,中间插入词的数量也不限。例如,“high(W)strength(S)steel”表示只要在同一句子中检索出含有“highstrength和steel”形式的均为命中记录。(F)算符(F)算符是“Field”的缩写,表示在此运算符两侧的检索词必须同时出现在文献记录的统一字段内,如出现在篇名字段、文摘字段、叙词字段、自由词字段,但两个词的前后顺序不限,夹在两个词之间的词的个数也不限。要求被连接的检索词出现在统一的字段中,字段类型和词序均不限。例如:environmental(F)impact/DE,TI表示这两个词必须同时出现在叙词字段和篇名字段中。(四)限制检索限制检索技术限制检索是通过限制检索范围,缩小检索结果,达到精确检索的方法。检索方式主要有:限定字段检索和限定范围检索限定字段检索:将检索词限定在特定的字段中。如:题名(TI,title)、关键词(KW,keyword)、主题词(DE,descriptor)、文摘(AB,abstract)、全文(FT,Fulltext)、作者(AU,author)、期刊名称Journal(JN)、出版国Country(CO)、出版年份PublicationYear(PY)、语种Language(LA)等等。字段检索表达方式一般有两种:(1)后缀方式?,将检索词放在字段代码之前,之后用字段限定符号:in或/;如:zhejiangforestcollegeinAD即在地址字段中出现浙江林学院的即被检中。Furniture/TI即家具一词出现在题目中。(2)前缀方式,将检索词放在所限定的字段代码之后,如用在著者(AU)、刊名(JN)、出版年(PY)、语种(LA)等字段后,例如:AU=Evans,A.,LA=Chinese限定范围检索:是通过使用限定符来限制信息的检索范围,以达到优化检索的方法。不同的检索系统略有不同,常通过使用的有:“=、<=、>=、<、>、:”等。例如:PY>=1995???即限定出版年份为1995及以后的文献;出版年=1996:2005即1996年至2005年的文章(五)多种算符混合检索布尔逻辑算符、截词算符、位置算符、字段算符及圆括号等多种检索算符的综合应用,可以将各种关系的检索词组配起来,以表达复杂的检索概念,提高检索的质量和效率,达到较高的查全率和查准率。检索:“饲料中铅含量检测技术研究”检索词:铅或Pb;检测或测定;饲料检索式:(铅+Pb)(测定+检测)饲料检索以英文发表的“水稻虫害生物防治”方面的文献检索词:rice或paddy或oryzasative;pest;biologicalcontrol检索式:(rice+paddy+oryza()sative)pestbiological()control检索式是信息需求的最终体现,其质量好坏,将关系到检索的效果乃至成败。编制检索式的关键是选择检索词和准确运用检索算符并确定运算次序。二次检索:指在前一次检索的结果中进行另一概念的检索。短语检索(精确检索)算符,用“”表示,表示检出与“”完全相同的短语,用于提高检索的精度和准确度。自然语言检索(智能检索),是一种直接采用自然语言中的字、词、句进行提问式检索,同口语一样。如“水稻基因组的研究进展情况”、“whatisclone?”。适用于不太熟悉检索技术的用户,主要用于网络信息的检索。四、确定检索词1.切分切分是对课题的语句以自由词为单位进行拆分,转换为检索的最小单元。自由词切分仅适用于自然语言检索。例1:检索“妇女吸烟与肺癌的关系研究”相关文献。直接切分:妇女|吸烟|与|肺癌|的|关系|研究)注意,当词切分后将失去原来的意思时,不应再切分,即必须注意保持意义的完整。如“中国科学院”、“电子邮件”不可再切分。四、确定检索词2.删除删除是对自然语言中不具有实质性检索意义的虚词(如介词、连词、副词等),或者使用频率较低的词,或者专指性太高、过分宽泛的词,或者过分具体的限定词、禁用词,或者不能表达课题实质的高频词,或者存在蕴含关系可以合并的词,一律予以删除,使自然语言转换成为关键词和主题词的集合。如上例中的“与”、“的”、“关系”、“研究”。例2:检索“中国非常规天然气工业的发展前景研究”方面的相关文献。进行拆分以后,工业、发展、前景、研究这四个自由词具有一定的检索意义,但是由于或者是意义过于宽泛、或者是不能表达课题实质、或者是存在蕴含关系的原因,没有必要全部作为检索词,根据需要可以保留1-2个作为检索词。四、确定检索词3.替补替补就是在进行切分、删除后,对检索词进行替换和补充。“公交”应替换为:公共交通;“绿色包装”中的“绿色”,应替换为:环保、无污染、可降解;“煤气中毒”应替换为:一氧化碳中毒;“非典”应考虑补充:SARS、非典型肺炎、传染性非典型肺炎、严重急性呼吸综合征(severeacuterespiratorysyndrome);“非常规天然气”(nonconventionalnaturalgas)应考虑补充:煤层气、(天然气)水合物、页岩气、深层气、致密岩气、水溶气、沼气,同时考虑将“气”应替换为:天然气(naturalgas)、甲烷(methane)、CH4、CH4;含硫气田的“硫”应考虑补充:sulfur、sulf、sulfur、sulphur、sulphur、H2S,同时考虑将“硫”替换为:硫化氢(sulfuredhydrogen)、含硫化合物(sulfurcompound)。四、确定检索词在提取检索词时,若所选的数据库具有规范化词表时,应优先选用该数据库词表中与检索课题相关的规范化主题词(检索词)。五、构造检索式(试验性检索)所谓的检索提问式(query,searchformulation),是信息检索中用来表达用户检索提问的逻辑表达式,主要是使用各种布尔逻辑算符、位置算符、截词符、限制算符以及系统规定的其他组配连接符号将检索词进行组配,确定检索词之间的概念关系或位置关系。五、构造检索式(试验性检索)简单提问式——含一个检索词的提问式;上下文提问式——精确短语或近似精确短语的提问式,也可称为短语提问式;复合提问式——含有布尔算符和至少2个检索词的提问式;结构性提问式——含有2个以上布尔算符和至少4个检索词的多层结构组合的提问式。例4:地震序列分析的工具和方法研究要完成本项检索课题,必须使用结构性提问式:((((sequenceanalysis)(F)TI)AND((methodORtoolORinstrument)(F)Allfields))AND((seismic)(F)Allfields))?。检索式“(F)TI”意为限在TI(标题)字段中检索,可提高检索的准确性和相关度。分析给出下列课题的检索式水稻间作或者生物多样性防治稻瘟病社会保障基金投资问题研究刺槐组织培养研究检索步骤1、分析研究课题(明确检索要求,课题的学科性质,检索的时间范围等)2、选择检索工具或数据库3、选择检索途径4、选择检索词5、构建检索式6、实施检索并调整检索式7、输出检索结果及获取原文。1.分析研究课题(1)弄清课题学科属性、专业范围及其相关内容(2)弄清检索课题的信息类型和时间要求(3)考虑课题的特殊要求(4)明确用户自身的信息需求2.选择检索工具或数据库3.确定检索途径(1)以文献的外部特征为检索途径a.题名途径b.著者途径c.机构途径4、选择检索词A、选择检索词要全面B、注重同义词或相关词的选用C、注重规范化主题词的选用D、注重常用的专业术语的选用E、不可忽视缩写词的选用F、注意所用检索词拼写法的不同G、注意上位词概念和下位概念词的选用A、选择检索词要全面检索“饲料中重金属元素含量的检测技术”饲料、重金属、检测(主题概念)重金属(显性主题);铅、铬、镉(隐性主题)B、注重同义词或相关词的选用计算机、电脑、微机;马铃薯、土豆;污水处理、污水控制、水净化;猪:pig、hog、sow、piglet、swine检测、检验、测定、分析C、注重规范化主题词的选用如用CABI数据库的主题途径检索“猪”有关的信息,用“swine”较用“pig”好;查“鸡”有关信息,用“hen”比用“chicken”要好。D、注重常用的专业术语的选用检索“芦笋”,可用“石刁柏”检索。E、不可忽视缩写词的选用脱氧核糖核酸(DNA);聚合酶链反应(PCR)F、注意所用检索词拼写法的不同美\英的变体:fiber与fibre、color与colour等分体式与合体式:database与database等。G、注意上位词概念和下位概念词的选用检索“粪肥在果树栽培上的应用”“粪肥”,上位词“有机肥”,不能用“肥料”。检索“鲜菇的保鲜技术”“鲜菇”,上位词“食用菌”。5.构建检索式(1)单元词检索(2)布尔逻辑检索查全率(Recallratio,表示为R)是指从数据库中检出的相关信息数占该数据库总的相关信息数的百分比率。查全率(R)=×100%查准率(Precisionratio,表示为P)是指从数据库中检出的相关信息数占检出的信息总数的百分比率。查准率=×100%三、提高检索效果的主要措施1.提高数据库建库质量,尤其是标引质量2.正确制订检索策略,灵活运用各种检索技术3.根据检索要求,适当调整查全率和查准率(1)提高查全率的措施(2)提高查准率的措施(1)提高查全率的措施主要从扩大检索范围、增加检索网罗度入手,常用下列方法:①将同义词、近义词、缩写词、各种词形代码等尽量选全,并用逻辑“或”组配检索;②选用某些上位概念词、下位概念词或相关词,并用逻辑“或”组配进行检索;③减少逻辑“与”的运算,丢掉某些不太重要或者太专指的概念组面;④进行截词检索,选择恰当的截词位置;⑤调整字段限制,在几个字段或文摘字段、任意字段甚至在全文本中进行检索;⑥调整位置算符,由严密变宽松,如(W)→(N);⑦采用族性检索功能较强的分类目录或分类号进行检索;⑧增加检索途径,将主题、篇名、分类等途径联合使用;⑨增加检索系统和数据库。(2)提高查准率的措施主要从缩小检索范围、提高检索专指入手,常用下列方法:①提高检索词的专指度,选用下位概念词或专指性较强的词,减少同族近义词与相关词的使用;②增加概念组面限制,即采用逻辑“与”连接相关概念组面的检索词,以进一步限定主题概念的范围;③使用逻辑“非”算符,排除一些无关的概念;④对检索词的截词不可截得太短;⑤使用字段限制,将检索词限定在篇名或主题词字段进行检索;⑥使用位置算符指定邻接关系,并由宽松变严密,如(N)→(W);⑦利用信息的外部特征限制输出的检索结果,包括限制输出的类型、语种、出版时间等。第五节信息检索步骤(2)以文献信息的内容特征为检索途径a.分类途径b.主题途径6.实施检索并调整检索式7.输出检索结果及获取原文第六节信息检索效果的评价信息检索效果:指用户利用信息检索系统进行检索所产生的有效结果。一、信息检索效果的评价指标以一个检索提问去检索任何一个数据库都会出现4个相关量:检出的相关信息量、未被检出的相关信息量、检出的非相关信息量、未检出的非相关信息量。a表示从数据库中检出的相关信息记录数;b表示从数据库中检出的无关信息记录数;a+b是检出的总的信息数;c表示数据库中未被检出的相关信息数;a+c是数据库中含有该提问的相关信息的总数;d表示数据库中未被检出的无关信息数;a+b+c+d是数据库存储的全部信息记录数。理想的检出结果是查全率与查准率都趋近于1。但在实际检索中,查全率与查准率之间存在互逆相关性。如果追求过高的查全率,就可能降低查准率。1RP101.数据库的信息量与信息标引网罗度(客观因素)2.检索词的专指度3.检索者的水平4.检索策略二、影响检索效率的主要因素涉及数据库本身的质量:(1)数据库搜集的信息量的数量与质量(2)对每条信息揭示的深度与广度,著录标引的质量(字段的数量,主题词的信息标引网罗度)(3)检索途径及检索字段的数量主观因素缩小检索范围,提高检索的专指度AnotB或A–B概念删除关系检出的记录中只能含有NOT算符前的检索词,不能同时含有其后的检索词“非”(NOT或-)组配相同概念的检索词,如同义词、近义词等。扩大检索范围,提高查全率AorB或A+B并列关系检出的结果中只需满足检索项中的任何一个或同时满足即可“或”(OR或+)缩小检索范围,提高查准率AandB或AB概念交叉和限定检索出的记录必须同时含有所有的检索词“与”(AND或)作用及表达表示关系含义逻辑算符运算优先级顺序为NOT>AND>OR,可以用括号“()”改变它们的运算顺序。如Aand(BorC),检索顺序为先B或C,然后再与A后截断中截断前截断无限截断如:economic??有限截断截词检索与截词检索算符economiceconomicseconomicsteconomicalismeconomiceconomicseconomicst如:economic?如:wom?nwomanwomen如:?computersulursulfursulphur无限截断有限截断前后截断如:?computer?可检出:computer、computers、computerize、computerized、minicomputer、minicomputers、microcomputer、microcomputersSheet3

Sheet2

Sheet1

信息检索结果共轭表

相关信息量

非相关信息量

合计

检出信息量

未检出信息量

a

c

a+c

b

d

b+d

a+b

c+d

a+b+c+d

相关信息指标
检出信息指标

信息检索结果共轭表

相关信息指标
检出信息指标

相关信息量

非相关信息量

合计

检出信息量

未检出信息量

合计

献花(0)
+1
(本文系科技文献检...首藏)