由于工作的需要,需要使用到分词工具,结果调研之后发现有专门的日语分词工具可以很好地对日语进行分词,于是记录下来安装和简单的使用测试过程。
首先使用的系统是Mac OSX,Python版本是python3.
1. 有直接源码可以安装的,但是为了方便还是使用HomeBrew来进行安装。下面使用HomeBrew进行安装。
- $ brew install mecab
- $ brew install mecab-ipadic
2. 然后可以直接使用pip安装python接口了。
- $ pip install mecab-python3
3. 之后可以在python环境下测试是否安装成功。
如果没有提示则说明安装成功。
下面就可以进行一些简单的使用例子了。
- import MeCab
- mecab = MeCab.Tagger ("-Ochasen")
- sentence = '太郎はこの本を二郎を見た女性に渡した。'
- print(mecab.parse(sentence))
-
-
- 太郎 タロウ 太郎 名詞-固有名詞-人名-名
- は ハ は 助詞-係助詞
- この コノ この 連体詞
- 本 ホン 本 名詞-一般
- を ヲ を 助詞-格助詞-一般
- 二 ニ 二 名詞-数
- 郎 ロウ 郎 名詞-一般
- を ヲ を 助詞-格助詞-一般
- 見 ミ 見る 動詞-自立 一段 連用形
- た タ た 助動詞 特殊?タ 基本形
- 女性 ジョセイ 女性 名詞-一般
- に ニ に 助詞-格助詞-一般
- 渡し ワタシ 渡す 動詞-自立 五段?サ行 連用形
- た タ た 助動詞 特殊?タ 基本形
- 。 。 。 記号-句点
- EOS
当然上面输出的是带词性标注的,我们可以使用另一种方法来输出没有词性标注的,仅仅是分词。
- import MeCab
- mecab = MeCab.Tagger ("-Owakati")
- sentence = '太郎はこの本を二郎を見た女性に渡した。'
- print(mecab.parse(sentence))
-
- 太郎 は この 本 を 二 郎 を 見 た 女性 に 渡し た 。
基本的使用就是这些,更详细的使用Google吧。
---------------------EOF--------------------
参考文献:
http:///guides/mecabinstructions.html
https://github.com/SamuraiT/mecab-python3
http:///questions/7892007/python-2-7-how-do-you-write-mecab-parsed-information-to-a-text-file
https://shogo82148./blog/2012/12/15/mecab-python/
|