下载make好word2vec后,生成以下5个命令:![]() distance: word2phrase:就是将词语拼成短语。 word2vec:丫应该是make后第一个执行的命令了,因为需要使用该命令训练语料库。我们首先需要准备好txt文本文件,里面全是用空格或Tab空开的词。然后通过以下代码生成*.bin文件,bin里面保存的值就是文档中词语和其对应的向量。千万不要以为,得到的bin文件就一定比input.txt小,超过100M的txt是这样,而且越大越是,但是对于20~50M的语料库而言就不一定了,起码我训练的时候是这样。
在Ubuntu15.04下安装Gensim: sudo apt-get install python-numpy python-scipy pip install gensim |
|