分享

日语分词工具MeCab的安装和使用

 openlog 2017-06-23

由于工作的需要,需要使用到分词工具,结果调研之后发现有专门的日语分词工具可以很好地对日语进行分词,于是记录下来安装和简单的使用测试过程。

首先使用的系统是Mac OSX,Python版本是python3.

1. 有直接源码可以安装的,但是为了方便还是使用HomeBrew来进行安装。下面使用HomeBrew进行安装。

[plain] view plain copy
  1. $ brew install mecab  
  2. $ brew install mecab-ipadic  
2. 然后可以直接使用pip安装python接口了。

[plain] view plain copy
  1. $ pip install mecab-python3  
3. 之后可以在python环境下测试是否安装成功。

[plain] view plain copy
  1. >>> import MeCab  
如果没有提示则说明安装成功。


下面就可以进行一些简单的使用例子了。

[python] view plain copy
  1. import MeCab  
  2. mecab = MeCab.Tagger ("-Ochasen")  
  3. sentence = '太郎はこの本を二郎を見た女性に渡した。'  
  4. print(mecab.parse(sentence))  
  5.   
  6.   
  7. 太郎  タロウ 太郎  名詞-固有名詞-人名-名  
  8. は   ハ   は   助詞-係助詞  
  9. この  コノ  この  連体詞  
  10. 本   ホン  本   名詞-一般  
  11. を   ヲ   を   助詞-格助詞-一般  
  12. 二   ニ   二   名詞-数  
  13. 郎   ロウ  郎   名詞-一般  
  14. を   ヲ   を   助詞-格助詞-一般  
  15. 見   ミ   見る  動詞-自立   一段  連用形  
  16. た   タ   た   助動詞 特殊?タ    基本形  
  17. 女性  ジョセイ    女性  名詞-一般  
  18. に   ニ   に   助詞-格助詞-一般  
  19. 渡し  ワタシ 渡す  動詞-自立   五段?サ行   連用形  
  20. た   タ   た   助動詞 特殊?タ    基本形  
  21. 。   。   。   記号-句点  
  22. EOS  

当然上面输出的是带词性标注的,我们可以使用另一种方法来输出没有词性标注的,仅仅是分词。

[python] view plain copy
  1. import MeCab  
  2. mecab = MeCab.Tagger ("-Owakati")  
  3. sentence = '太郎はこの本を二郎を見た女性に渡した。'  
  4. print(mecab.parse(sentence))  
  5.   
  6. 太郎 は この 本 を 二 郎 を 見 た 女性 に 渡し た 。  


基本的使用就是这些,更详细的使用Google吧。

 

---------------------EOF--------------------


参考文献:

http:///guides/mecabinstructions.html

https://github.com/SamuraiT/mecab-python3

http:///questions/7892007/python-2-7-how-do-you-write-mecab-parsed-information-to-a-text-file

https://shogo82148./blog/2012/12/15/mecab-python/


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多