ES0.2 Analysis和Analyzer

株野 2015-11-17

展开全文

Analysis 和Analyzer

analysis:

1，对文本分词，分成适合做倒排索引的词语。

2，对词语做标准化（normalizing），比如统一大小写、缩写转换等。这样做的目的是为了提升可搜索的能力。

Analyzer：

Analyzer对document做分析(analysis)。一个Analyzer包含三部分：

character filter：过滤器。它的作用是在分词之前整理文本，比如去掉html标签、转换&为and等。
tokenizer：分词器。把文本分成可以组织倒排索引的词组。
token filter：分词过滤。它的作用包括：转换大小写、删除停词、增加对应的同义词。

Build-in Analyzer：

Standard Analyzer：

标准分词，它根据字(word)边界分词，并且会滤除大部分标点符号。最后它会把分好的词转成小写。

Simple Analyzer：

只要遇到不是字母的字符时就分词，并且把词语小写化。

Whitespace Analyzer：

根据空白来分词，它不会小写化词语。

n-gram Analyzer：

n-gram分词可以用于前后模糊的查询方式，既可以用于查找也可以用于实现搜索引擎的自动补全功能。这是因为n-gram会把类似“ABCD”的词分成：AB、ABC、ABCD、BC、BCD、CD。

如果采用n-gram分词来建立倒排索引会很大程度上碰着索引大小，如果只是用在前缀补全上可以选择edge n-gram。

ES内置了n-gram的tokenizer，可以如下配置实现n-gram Analyzer：

"settings" : {

"analysis" : {

"analyzer" : {

"ngram_2_10" : {

"tokenizer" : "ngram_2_10_tokenizer"

}

},

"tokenizer" : {

"ngram_2_10_tokenizer" : {

"type" : "nGram",

"min_gram" : "2",

"max_gram" : "10",

"token_chars": [ "letter", "digit" ]

}

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：株野 > 《ElasticSearch》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

株野

关注对话

TA的最新馆藏

[转] Project Server(PWA)的使用
Exchange 2019中启用自动转发到外部域
Windows Server 更新服务 (WSUS)
Exchange Server部署搭建
VBA FSO对象模型详解
Project Server 2013新手入门（十三）PWA安全模式切换

喜欢该文的人也喜欢更多

热门阅读换一换