配色: 字号:
第5课 信息检索语言+正则表达式
2023-03-04 | 阅:  转:  |  分享 
  
郑州大学信息管理学院 周春雷信息检索技术本讲主要内容限制检索布尔逻辑检索截词检索位置检索加权检索1 限制检索限制检索是指通过特定的限制
符把检索词限定在具体的检索字段中的检索技术。检索时,计算机在限定的字段内按照字符的要求对检索词进行匹配运算,以提高检索的效率和查准
率。这些字段通常被称为检索点、检索入口、检索项或检索途径。2 布尔逻辑检索SU=''信息检索'' AND AF=''武汉大学''SU=''信
息检索'' AND (AF % ''武汉大学''or AF % ''南京大学'')3 截词检索截词符 ? (通配符?#)4 位置检索位置
算符 With (W) (nW) Near (N) (nN)Field (F)Sub-field (S)例如,infor
mation(W)retrival可以命中information retrival以及information-retrival这样
的记录。5 加权检索限定检索词在信息源中出现频次,如至少出现多少次等。 郑州大学信息管理学院 周春雷信息检索语言本讲主要内容信
息检索语言的概念及类型分类检索语言主题检索语言分类主题一体化语言1 信息检索语言的概念及类型信息检索语言也称检索语言,是信息存储和
信息检索共同使用的语言。用于信息描述、信息组织时称为标引语言用于表达检索提问时称为检索语言按描述信息内容特征分:分类检索语言、主题
检索语言(关键词语言、标题词语言、单元词语言、叙词语言)按描述信息外表特征分:题名、著者、出版者、号码2 分类检索语言分类检索语言
是指用分类号和类名来表达信息内容的主题概念,并将各种概念按学科性质和逻辑层次结构进行分类和系统排列的语言,也称为分类语言、分类法。
CLC,中国图书馆分类法,Chinese Library ClassificationDDC,杜威十进分类法,Dewey Deci
mal ClassificationUDC,国际十进分类法,Universial Decimal Classification当今
国内图书馆使用最广泛的分类法体系,简称《中图法》。《中图法》初版于1975年,1999年出版了第四版。修订后的《中图法》第四版增加
了类分资料的类目,并与类分图书的类目以“+”标识进行了区分,因此正式改名为《中国图书馆分类法》2010年第五版https://ww
w.clcindex.com/杜威十进分类法1894年首次出版,共分10个大类:000总论;100哲学;200宗教 ;300社会科
学;400语言学;500自然科学;600技术科学;700美术;800文学;900历史、地理。DC采用阿拉伯数字作标记符号,并采用小
数制(即十进制)的层累标记制。以三位数(000~999)形成前三级的等级结构。在三位数中,凡带“0” 的号码均表示总论性类目:后二
位为“0” 的号码表示一级类(大类),末一位为“0” 的号码表示二级类,凡末尾不带“0” 的三位数号码均属三级类。凡在三位数之后展
开的号码,均须在三位数后面加一小数点隔开。例如:600 应用科学630 农业631 农业经营631.5 作物栽培 中国图书馆分类法
DDC 杜威十进制分类法UDC 国际十进制分类法国内使用最广的叙词表是 《汉语主题词表》,国外常用的有《INSPEC叙词表》、《
EI叙词表》3 主题检索语言主题检索语言也叫主题语言、主题法,是以表达文献主题内容的语词作为概念标识,并按字顺编排的一种检索语言
。关键词语言标题词语言单元词语言叙词语言主题概念一般包括研究对象、方法、材料、过程、条件等具有独立检索意义的一些基本概念。主题词
的四种变化:同义词、上位词、下位词、相关词检索时需要知道不同拼法、缩写词、缩略语4 分类主题一体化语言我国2005年出版的《中国
分类主题词表》(第二版)就是典型的分类主题一体化词表,实现了两种不同检索语言的兼容互换。分类主题一体化词表是指具有分类与主题两种标
引和检索功能的检索语言,对分类表和叙词表的术语、标识、参照、索引等实行统一的控制,并根据相应的转换规则建立起一一对应关系,将分类表
和叙词表融合成一体化词表,发挥两种检索语言的优势。 利用它可同时完成对文献信息的分类标引和主题标引,提高标引质量和效率;也可同时进
行分类、主题方式的检索。正则表达式正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为re
gex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。许多程序设计语言
都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。在Python中可以引入Re库。正则表
达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”
用来表达对字符串的一种过滤逻辑。正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操
作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串
的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式的特点:1. 灵活性、逻辑性和
功能性非常强;2. 可以迅速地用极简单的方式达到字符串的复杂控制。3. 对于刚接触的人来说,比较晦涩难懂。由于正则表达式的主要应用
对象是文本,因此它在各种文本编辑器场合都有应用,小到著名编辑器EditPlus,大到Microsoft Word、Visual S
tudio等大型编辑器,都可以使用正则表达式来处理文本内容。https://baike.baidu.com/item/%E6%AD
%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F/1700215?fr=aladdinhttps:/
/www.cnblogs.com/zery/p/3438845.html读懂正则表达式就这么简单https://www.runoob.com/regexp/regexp-syntax.html在线测试工具:https://c.runoob.com/front-end/854https://tool.oschina.net/regex/
献花(0)
+1
(本文系新用户2640m...首藏)