分享

截词检索

 ai如流星 2014-10-02

1 基本分类

在截词检索技术中,较常用的是后截词和中截词两种方法。如果按所截断的字符数目来分,有无限截词和有限截词两种。截词算符在不同的系统中有不同的表达形式,需要说明的是并不是所有的搜索引擎都支持这种技术。

截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词可有后截断、前截断、中截断三种类型。

不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。下面以无限截词举例说明:

(1)后截断,前方一致。如:comput?表示computer,computers,computing等。

(2)前截断,后方一致。如:?computer表示minicomputer,microcomputers等。

(3)中截断,中间一致。如?comput?表示minicomputer,microcomputers等。

截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在西文检索中,更是广泛应用。截断技术可以作为扩大检索范围的手段,具有方便用户、增强检索效果的特点,但一定要合理使用,否则会造成误检。

1.1 1. 后截词

是指检索结果中单词的前面几个字符要与关键字中截词符前面的字符相一致的检索。具体包括:

(1)有限后截词 主要用于词的单、复数,动词的词尾变化等。如books可用book?代表,其中截词符?(也称为通配符)可以用来代替0个或1个字符,因此,book?可检索出包含有book或books词的记录;acid??可检索出含有acid,acidic 和acids的记录。

(2)无限后截词 主要用于同根词。如solubilit用solub?处理,可检索出含有solubilize,solubilization,soluble等同根词的记录。由此可知,在词根后加一个"?",表示无限截词符号。

1.2 2.中截词

中截词也称屏蔽词。一般来说,中截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。如organi?ation可检索出含有organisation和organization的记录。由此可知,中截词使用的符号为"?",即用"?"代替那个不同拼写的字符。

从以上各例可知,使用截词检索具有隐含的布尔逻辑或(OR)运算的功能,可简化检索过程。截词检索截词检索

2 截词方式

截词检索的方式有多种,可以分为有限截词、无限截词和中间截词。

2.1 有限截词

有限后截词主要用于词的单、复数,动词的词尾变化等。将“n”个截词符放在检索词(关键词、主题词)的词干或词尾可能变化的位置上。

2.2 中间截词

一般来说,中间截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。例如:wom?n woman women

2.3 无限截词

截去某个词的尾部,是词的前方一致比较,也称前方一致检索。在检索词(关键词、主题词)干后加1个截词符 “?”或“*”。表示该词尾允许变化的字符数不受任何限制。例如:comput* 可检索出 computer、computing、computers、computering、computeriation 等词的记录。 任何一种截词检索,都隐含着布尔逻辑检索的“或”运算。采用截词检索时,既要灵活、又要谨慎,截词的部位要适当,如果截得太短(输入的字符不得少于3个),将影响查准率。另外,不同的检索系统使用的截词符不同、各数据库所支持的截断类型也不同。

3 检索方式

3.1 1.布尔逻辑检索(Boolean)

对于常见的三种布尔逻辑算符AND,OR,NOT,在搜索引擎中,该功能则表现不同。首先是受支持的程度不同,"完全支持"全部三种运算的搜索引擎有InfoSeekAltaVista和Excite等;在其"高级检索"模式中"完全支持",而在"简单检索"模式中"部分支持"的有HotBot,Lycos等。其次是提供运算的方式不同:大部分搜索引擎采用常规的命令驱动方式,即用布尔算符(AND,OR,NOT)或直接用符号进行逻辑运算,如 AltaVista、Excite;有的用“十”和“一”号替代“ AND/NOT”进行运算;也有部分引擎使用菜单驱动方式,用菜单选项来替代布尔算符或符号进行逻辑运算,如 HotBot,Lycos中均提供了两个菜单"All the words"和"And of the words"分别代表 AND和OR运算,天网的"精确匹配"、"模糊匹配"原理与此相似。

3.2 2.词组检索(phrase)

词组检索是将一个词组(通常用双引号""括起)当作一个独立运算单元,进行严格匹配,以提高检索的精度和准确度,它也是一般数据库检索中常用的方法。词组检索实际上体现了临近位置运算(Near运算)的功能,即它不仅规定了检索式中各个具体的检索词及其相互间的逻辑关系,而且规定了检索词之间的临近位置关系。几乎所有的搜索引擎都支持词组检索,并且都采用双引号来代表词组,如"信息教育"。但在Infoseek中,除了用双引号外,还使用了短横线"-"来代表词组,如 digital-library-definition,区别在于以"-"表示的词组不区分大小写。

3.3 3.截词检索(truncation)

截词检索也是一般数据库检索中常用的方法。但在一般的数据库检索中,截词法常有左截、右截、中间截断和中间屏蔽4种形式。而在搜索引擎中,目前多只提供右截法。而且搜索引擎中的截词符则通常采用星号*。如educat*。相当于education+educational+educator。

3.4 4.字段检索(fields)

字段检索和限制检索常常结合使用,字段检索就是限制检索的一种,因为限制检索往往是对字段的限制。在搜索引擎中,字段检索多表现为限制前缀符的形式。如属于主题字段限制的有:Title,Subject,Keywords,Summary等。属于非主题字段限制的有:Image,Text等。作为一种网络检索工具,搜索引擎提供了许多带有典型网络检索特征的字段限制类型,如主机名(host);域名(domain);链接(link);URL(site);新闻组(newsgroup)和 E-mail限制等。这些字段限制功能限定了检索词在数据库记录中出现的区域。由于检索词出现的区域对检索结果的相关性有一定的影响,因此,字段限制检索可以用来控制检索结果的相关性,以提高检索效果。在著名的搜索引擎中,目前能提供较丰富的限制检索功能的有 AltaVista,Lycos和 Hotbot等。

3.5 5.位置检索 

在搜索引擎中,能提供位置检索的的较少。如AltaVista,而且它能提供的位置运算目前也只有一种,即临近位置运算(Near运算),不如常见数据库检索丰富。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多