Solr4.2.0+IK Analyzer 2012

KILLKISS 2014-03-06

展开全文

开场白：

本章简单讲述如何在solr中配置著名的 IK Analyzer 分词器。

本章建立在 Solr学习(一) 基础上进行配置。

通过（一）的介绍，目前已经成功部署好单实例 solr+tomcat

声明：描述的比较笼统繁琐，有偏差的地方请大家毫不留情的拍砖

准备工作：

下载 “IK Analyzer 2012FF_hf1.zip”包。详见：IK Analyzer中文分词器创始人林良益博客

名词解释：

IK源目录：解压缩“IK Analyzer 2012FF_hf1.zip”后得到的文件夹路径。解压缩后得到下图结构东东

IK三把刀：上图被选中的3个文件（IKAnalyzer.cfg.xml、IKAnalyzer2012FF_u1.jar、stopword.dic）

Tomcat ：以下全部指 tomcat根目录。（例：E:\\apache-tomcat-6.0.35\\）。

开始生产

步骤1：将 IK三把刀”放入目录“...\Tomcat\webapps\solr\WEB-INF\lib”中，(注意！这里此时由于项目原来启动过一次，webapps下的“solr.war”包已经被成功发布部署成文“solr”文件夹了。所以这里是在solr文件内打开 WEB-INF\lib目录，不然WAR包是不允许放入文件到特定目录）。

步骤2：开始设置IK分词器在“schema.xml”文件中的配置（schema.xml目录位置在 “...\Tomcat\solrapp\solr\collection1\conf”此处的 collection1 是默认的文件夹，有些朋友在先前配置时候会去改变此文件夹名称，请注意自行匹配）;

打开schema.xml文件（尽量使用UE打开，防止乱码）在<types></types>中增加如下内容

Xml代码

<span style="font-family: SimSun, 宋体, tahoma, arial, helvetica, sans-serif; font-size: 14px;"><fieldType name="text_ik" class="solr.TextField">
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType></span>

这样就OK了。增加了用 IK分词算法提供的字段类型。（IK分词算法的其他扩展配置请自行参考IK算法的配置说明文档。在“IK三把刀”目录里头的PDF文件里有。）

测试阶段

可能一些朋友会想看看效果，确认一下IK分词器成功配置，接下来我们来尝试测试一下IK分词效果吧。

（看到此处的朋友，其实可以跳到看 schema.xml的具体字段说明文章去。大概了解一下schema.xml是干嘛用的，不过不看也无妨，我们只是为了证明IK配置成功。）

我们在 schema.xml 文件里头。找到如下代码片段。（schema.xml文件在哪里？看步骤2 ...）

Xml代码