jieba分词 | https://github.com/fxsjy/jieba | 中文分词库 |
中文复杂事件的概念与显式模式 | https://github.com/thunderhit/eventextraction | 中文复合事件的概念与显式模式 ,包括条件事件、因果事件、 顺承事件、反转事件等事件抽取, 并形成事理图谱。 |
中文信息抽取工具 | https://github.com/fighting41love/cocoNLP | 从中文文本数据中抽取 出结构化的信息, 如时间、手机号、运营商、 邮箱、地址、人名、身份证 |
图片识别 | https://github.com/breezedeus/cnocr | 识别出图片中的中文文本 |
label-studio多媒体标注工具 | https://github.com/heartexlabs/label-studio | 可对文本、图片、音频 和视频数据进行标注 |
中文可读性 | https://github.com/cdimascio/py-readability-metrics | 可读性算法包括Flesch-Kincaid Grade Level, Gunning Fog, ARI, Dale Chall, SMOG |
Synonyms | https://github.com/huyingxi/Synonyms | 用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。 |
SpaCy 中文模型 | https://github.com/howl-anderson/Chinesemodelsfor_SpaCy | SpaCy 中文模型 |
Scattertext可视化 | https://github.com/JasonKessler/scattertext | 能否分析出某个类别的文 本与其他文本的用词差异; 简单修改后可支持中文 |
HarvestText文本挖掘和预处理工具 | https://github.com/blmoistawinde/HarvestText | 文本挖掘和预处理工具(文本清洗 、新词发现、情感分析、 实体识别链接、句法分析等), 无监督或弱监督(种子词)方法 |
开源金融大数据 | https://github.com/PKUJohnson/OpenData | 股票、基金、期货、宏观等金融数据。还有非金融数据,如空气质量、高考录取分、院线票房等非金融数据 |
中日韩分词 | https://github.com/jeongukjae/python-mecab | 中日韩分词工具 |
汉字数字(中文数字)-阿拉伯数字转换工具 | https://github.com/Wall-ee/chinese2digits | 最好的汉字数字(中文数字) 阿拉伯数字转换工具。 |