【原】8种Python文本处理工具集（附代码页）

学术头条 2020-11-27

展开全文

文本处理一般包括词性标注，句法分析，关键词提取，文本分类，情感分析等等，这是针对中文的，如果是对于英文来说，只需要基本的tokenize。本文为大家提供了以下这些工具包。

1.Jieba

【结巴中文分词】做最好的 Python 中文分词组件
其功能包括支持三种分词模式（精确模式、全模式、搜索引擎模式），支持繁体分词，支持自定义词典等。

代码主页：https://github.com/fxsjy/jieba

2.NLTK

【NLTK】一个构建Python程序以使用人类语言数据的领先平台，被称为“使用Python进行教学和计算语言学工作的绝佳工具”，以及“用自然语言进行游戏的神奇图书馆”。

官方主页：http://www./
代码主页：https://github.com/nltk/nltk

3.TextBlob

【TextBlob】是一个用于处理文本数据的Python（2和3）库。它为潜入常见的自然语言处理（NLP）任务提供了一个简单的API，例如词性标注，名词短语提取，情感分析，分类，翻译等。

官方主页：http://textblob./en/dev/
代码主页：https://github.com/sloria/textblob

4.MBSP for Python

【MBSP】是一个文本分析系统，基于CLiPS和ILK开发的基于TiMBL和MBT内存的学习应用程序。它提供了用于标记化和句子分裂，词性标注，分块，词形还原，关系查找和介词短语附件的工具。

官方主页：http://www.clips./pages/MBSP

5.Gensim

【Gensim】是一个免费的Python库

官方主页：http:///gensim/index.html

代码主页：https://github.com/piskvorky/gensim

6.langid.py

【langid.py 】是一个独立的语言标识（LangID）工具。接受过97种语言的预训练（ISO 639-1代码），

【langid.py 】是一个独立的语言标识（LangID）工具。接受过97种语言的预训练（ISO 639-1代码），培训数据来自5个不同的来源：JRC-Acquis、ClueWeb 09、维基百科、路透社RCV2和Debian i18n。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：学术头条 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多