分享

Analysis分析器(三)

 Lib4Kevin 2015-06-11

在搜索过程中,有两个地方会用到分析器,一个就是建索引的时候,我们都知道,Lucene是以倒排的方式建索引。我们来看下倒排序的概念。

倒排序索引

在对文档进行预处理,建立一种便于检索的数据结构,以此来提供信息检索的速度,这种数据结构就是索引。目前广泛使用的一种索引方式是倒排序索引。

倒排序索引的原理就如同查字典。要先查找目录,得到数据对应的页面,在直接翻到指定的页面。不是在文章中找词,而是从目录中找词所在的文章。这需要在索引库中生成一个词汇表(目录),在词汇表中的每一条记录都类似与“词à所在文档的编号列表”的结构,记录了每一个出现过的单词,和单词出现的地方(哪些文档·,得到文档的编号,再直接取出相应的文档。

把数据转化成指定格式放到索引库中的操作叫做建立索引,建立索引时,先把数据存到索引库中,再更新词汇表。

进行搜索时,先从检索词汇表开始,然后找到相对应的文档。如果查询中仅包含一个关键词,在词汇表中找到该单词,并取出他对应的文档就可以了。如果查询中包含多个关键词,则需要将各个单词检索出的记录进行合并再取出相应的文档记录。

文本分析的过程简单的可以理解为把一系列字符串按某种方式分成一个个的词。

Lucene中,Document就是我们要建索引的文档,比如我有一个文本文件,里面内容是“Beijing is the Capital of China”,我们就把它当成一个Documnet,先把Document传给分词组件(Tokenizer),分词组件会把这个文档里面的域值Field分成一个个的单词,去掉标点符号,去除停词(一些没有实际意义的词,如thea等等),这样处理之后,得到的就是词汇单元(Token)了,比如“Beijing”,“Capitial”,“China”等等就是词汇单元了。然后词汇单元又会经过一系列处理,如转换成小写,还会把单词还原成原型,也就是把过去时、复数等等转换成相应的原来的形式,如把cars转换成car。这样得到的就是词(Term)了,最后得到的“Beijing”,“Capitial”,“China”就是词了,然后把这些词传递给索引组件,建立索引。

Analysis分析器

Analysis(分析)是从要索引的文本中提取term(索引项)的过程。Lucene中,分析是由实现Analyzer抽象类的分析器来实现;

Lucene自带有如下分析器:

WhitespaceAnalyzer:仅仅是去除空格,对字符没有lowcase化,不支持中文;

SimpleAnalyzer:功能强于WhitespaceAnalyzer,将除去letter之外的符号全部过滤掉,并且将所有的字符lowcase化,不支持中文;

StopAnalyzerStopAnalyzer的功能超越了SimpleAnalyzer,在SimpleAnalyzer的基础上增加了去除StopWords的功能,不支持中文;

StandardAnalyzer:英文的处理能力同于StopAnalyzer.支持中文采用的方法为单字切分;

Token词汇单元

Token我们先以这样理解,就是一个单词,又叫语汇单元Token是分析后的基本元素。

    它有四个属性,也就是四个字段:

termText:代表的是文本值,也就是单词本身;

startOffset:就是这个单词起始点的偏移量,也就是语汇单元文本的起始字符在原始文本中的位置;

endOffse:就是这个单词终点的偏移量,终点偏移量是语汇单元文本终止字符的下一个位置;

type:就是指这个语汇单元的类型,这里的类型可以是文本,数字,主机名,缩写等等。大家可以看到这个类型可以是自定义的,在构造函数中传进去,也可以用它内置的,是一个枚举。也就是TokenTypes 枚举,它里面有如下几个枚举成员: 

1TokenStream语汇单元流

TokenStream叫语汇单元流,可能理解为一个字符串,就是若干个Token语汇单元组成的。真正的是从别处传过来一个Document,暂且理解为一个字符串,经过一系列操作后,变成一个个Token,然后把这些Token组合成一个TokenStream

 2Tokenizer分词组件

Tokenizer是真正进行分词的,是Analyzer的第一步。

Tokenizer类继承于TokenStream类,它的作用主要是把一个字符串分隔成一个个的词汇单元,不同的子类实现不同的切分方式。有按空格的,有按非英文字符的。把切分出来的词Token组合成TokenStream

Tokenizer拆分成一个个的语汇单元,并记录每个语汇单元的偏移量,里面最重要的就是一个Next方法,这个方法就是遍历文本流中的每个字符,然后来判断这个字符是不是一个语汇单元的的分拆条件,比如如果我的条件是以空格来分词,那么当这个字符不是空格的话,我就接着遍历下一个字符,一直循环,如果到某一个字符,它恰好是空格,那么就符合我们分词的条件,我们就把前面所遍历的字符当作一个语汇单元,也就是一个词(Token)返回去,顺便也返回它的偏移量,

  3TokenFilter过滤器

 就是完成一些其他操作的,比如去除停词,转换成小写。这两个子类也是抽象类,他们也作为父类,后面有很多继承他们的类。

  TokenFilter类也是继承于TokenSteam类,它的作用是对分出来的词进行一些处理,比如去掉停词,转换大小写。

中文分析器

1IK Analyzer

基于java语言开发的轻量级的中文分词工具包。从200612月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

下载地址:http://code.google.com/p/ik-analyzer/

有操作文档,开发版本更新较快。

2mmseg4j

1mmseg4j Chih-Hao Tsai MMSeg 算法实现的中文分词器,并实现 lucene analyzer solr TokenizerFactory 以方便在LuceneSolr中使用。

2MMSeg 算法有两种分词方法:SimpleComplex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%mmseg4j 已经实现了这两种分词算法。

下载地址:http://code.google.com/p/mmseg4j/

没有操作文档,开发版本更新较快。

3paoding

采用基于不限制个数的词典文件对文章进行有效切分,使能够将对词汇分类定义。能够对未知的词汇进行合理解析

下载地址:http://code.google.com/p/paoding/

没有操作文档,开发活跃度比较低。

4imdict

imdict智能词典所采用的智能中文分词程序

没有操作文档,开发活跃度比较低。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多