用MeCab打造一套实用的中文分词系统(二) | 我爱自然语言处理

看见就非常 2015-04-24

展开全文

虽然是愚人节，但是这个不是愚人节玩笑，最近花了一些时间在MeCab身上，越发喜欢这个来自岛国的开源分词系统，今天花了一些时间训练了一个更适用的模型和词典，打包提供给大家使用，因为数据和词典涉及到一些版权问题，所以打包文件里只是mecab用于发布的二进制词典和模型文件，目前在mac os和linux ubuntu系统下测试无误，其他系统请自行测试使用：

链接: http://pan.baidu.com/s/1sjBfdXr 密码: 8udf

了解和安装mecab请参考：
日文分词器 Mecab 文档
 用MeCab打造一套实用的中文分词系统

使用前请按上述文档安装mecab，下载这个中文分词模型和词典之后解压，解压后得到一个mecab-chinese-data目录，执行:

mecab -d mecab-chinese-data
扬帆远东做与中国合作的先行
扬帆 v,*,*,*,*,*,扬帆,*,*
远东 ns,*,*,*,*,*,远东,*,*
做 v,*,*,*,*,*,做,*,*
与 p,*,*,*,*,*,与,*,*
中国 ns,*,*,*,*,*,中国,*,*
合作 v,*,*,*,*,*,合作,*,*
的 u,*,*,*,*,*,的,*,*
先行 vn,*,*,*,*,*,先行,*,*
EOS

上述第二列提供了词性标注结果。

如果想得到单行的分词结果，可以这样执行：

mecab -d ./mecab-chinese-data/ -O wakati
扬帆远东做与中国合作的先行
扬帆远东做与中国合作的先行

如果想直接对文件分词，可以这样执行：

mecab -d ./mecab-chinese-data/ INPUT -o OUTPUT

具体可以参考上述两个文档，另外我在mac下测试了一下中文维基百科语料的切分速度，大概700多M的语料，不到90秒切分完毕，大概7M/s的切分速度完全达到了工业届的使用标准。另外Mecab还支持Nbest输出，多种输出格式，全切分模式，系统词典和用户词典定制等等，同时通过SWIG提供了perl, ruby, python, java的调用接口，非常方便。

以下是在backoff2005 人民日报语料库上的测试结果：

=== SUMMARY:
=== TOTAL INSERTIONS: 3803
=== TOTAL DELETIONS: 1981
=== TOTAL SUBSTITUTIONS: 5004
=== TOTAL NCHANGE: 10788
=== TOTAL TRUE WORD COUNT: 104372
=== TOTAL TEST WORD COUNT: 106194
=== TOTAL TRUE WORDS RECALL: 0.933
=== TOTAL TEST WORDS PRECISION: 0.917
=== F MEASURE: 0.925
=== OOV Rate: 0.058
=== OOV Recall Rate: 0.482
=== IV Recall Rate: 0.961
### pku_test.result 3803 1981 5004 10788 104372 106194 0.933 0.917 0.925 0.058 0.482 0.961

召回率93.3%，准确率91.7%, F值为92.5%, 虽然还没有一个单纯针对这个测试语料比赛的分词结果好，但是测试了一些其他语料后觉得这个版本完全可以作为一个基准版本使用，另外mecab也提供了用户定制词典接口，方便用户按自己的需求定制使用。

最后提供一个demo仅供测试使用: 中文分词Demo

注：原创文章，转载请注明出处“我爱自然语言处理”：www.

本文链接地址：http://www./用mecab打造一套实用的中文分词系统二

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：看见就非常 > 《tip》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多