搜索

分享

QQ空间 QQ好友新浪微博微信

【原】中文文本分析相关资源汇总

大邓的Python 2021-02-23

展开全文

中文文本数据逻辑性分析库

中文文本数据(挖掘)分析相关资源汇总

一、Python中文数据处理库

项目	地址	简介
jieba分词	https://github.com/fxsjy/jieba	中文分词库
中文复杂事件的概念与显式模式	https://github.com/thunderhit/eventextraction	中文复合事件的概念与显式模式，包括条件事件、因果事件、顺承事件、反转事件等事件抽取，并形成事理图谱。
中文信息抽取工具	https://github.com/fighting41love/cocoNLP	从中文文本数据中抽取出结构化的信息，如时间、手机号、运营商、邮箱、地址、人名、身份证
图片识别	https://github.com/breezedeus/cnocr	识别出图片中的中文文本
label-studio多媒体标注工具	https://github.com/heartexlabs/label-studio	可对文本、图片、音频和视频数据进行标注
中文可读性	https://github.com/cdimascio/py-readability-metrics	可读性算法包括Flesch-Kincaid Grade Level, Gunning Fog, ARI, Dale Chall, SMOG
Synonyms	https://github.com/huyingxi/Synonyms	用于自然语言理解的很多任务：文本对齐，推荐算法，相似度计算，语义偏移，关键字提取，概念提取，自动摘要，搜索引擎等。
SpaCy 中文模型	https://github.com/howl-anderson/Chinesemodelsfor_SpaCy	SpaCy 中文模型
Scattertext可视化	https://github.com/JasonKessler/scattertext	能否分析出某个类别的文本与其他文本的用词差异；简单修改后可支持中文
HarvestText文本挖掘和预处理工具	https://github.com/blmoistawinde/HarvestText	文本挖掘和预处理工具（文本清洗、新词发现、情感分析、实体识别链接、句法分析等），无监督或弱监督（种子词）方法
开源金融大数据	https://github.com/PKUJohnson/OpenData	股票、基金、期货、宏观等金融数据。还有非金融数据，如空气质量、高考录取分、院线票房等非金融数据
中日韩分词	https://github.com/jeongukjae/python-mecab	中日韩分词工具
汉字数字(中文数字)-阿拉伯数字转换工具	https://github.com/Wall-ee/chinese2digits	最好的汉字数字(中文数字) 阿拉伯数字转换工具。

二、中文语料

资源名	地址	介绍
微信公众号语料库	https://github.com/SophonPlus/ChineseNlpCorpus	搜集、整理、发布中文自然语言处理语料/数据集，与有志之士共同促进中文自然语言处理的发展。
中文公司名语料库	https://github.com/wainshine/Company-Names-Corpus	公司简称,缩写,品牌词,企业名。可用于中文分词、机构名实体识别。
微信公众号语料库	https://github.com/nonamestreet/weixinpubliccorpus	数据量3G；纯文本,每行一篇，JSON格式。name是微信公众号名字， account是微信公众号ID，title是题目， content是正文。
多语言音频数据	https://voice.mozilla.org/en/datasets	多种语言音频数据，包括来自42,000名贡献者超过1,400小时的语音样本，涵github
知识问答	https://github.com/liuhuanyong/MiningZhiDaoQACorpus	百度知道问答语料库，包括超过580万的问题，938万的答案，5800个分类标签。基于该问答语料库，可支持多种应用，如闲聊问答，逻辑挖掘。
中文任务基准测评	https://github.com/CLUEbenchmark/CLUE	中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型、语料库、排行榜

三、中文知识图谱

社交网络分析大家都听过，社交网络分析使知识图谱中的一个领域。

项目名	地址	简介
知识图谱合集	https://github.com/husthuke/awesome-knowledge-graph	整理知识图谱相关学习资料
文档图谱信息可视化	https://github.com/liuhuanyong/TextGrapher	输入一篇文档，将文档进行关键信息提取，进行结构化，并最终组织成图谱组织形式，形成对文章语义信息的图谱化展示。
事件三元组抽取	https://github.com/liuhuanyong/EventTriplesExtraction	基于依存句法与语义角色标注的事件三元组抽取
中文人物关系抽取	https://github.com/liuhuanyong/PersonRelationKnowledgeGraph	中文人物关系图谱构建；基于知识库的数据回标基于远程监督与bootstrapping方法的人物关系抽取；基于知识图谱的知识问答等应用
证券知识图谱	https://github.com/lemonhu/stock-knowledge-graph	利用网络上公开的数据构建一个小型的证券知识图谱/知识库
大规模中文知识图谱数据	https://github.com/ownthink/KnowledgeGraphData	1.4亿中文知识图谱 ,百度网盘（链接: https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 提取码: 3hpp ）注：解压密码是：https://www./
京东商品知识图谱	https://github.com/liuhuanyong/ProductKnowledgeGraph	基于京东网站的1300种商品上下级概念，约10万商品品牌，约65万品牌销售关系，商品描述维度等知识库，基于该知识库可以支持商品属性库构建，商品销售问答，品牌物品生产等知识查询服务，也可用于情感分析等下游应用．
重大事件抽取	https://github.com/liuhuanyong/ImportantEventExtractor	针对某一事件话题下的新闻报道集合，通过使用docrank算法，对新闻报道进行重要性识别，并通过新闻报道时间挑选出时间线上重要新闻。

近期文章

Python核心技术与实战

Python全栈-60天精通之路

Python网络爬虫与文本数据分析

中文文本数据逻辑性分析库

Python数据分析相关学习资源汇总帖

漂亮~pandas可以无缝衔接Bokeh

综述:文本分析在市场营销研究中的应用

Lazy Prices公司年报内容变动碰上股价偷懒

用python帮你生产指定内容的word文档

2020年B站跨年晚会弹幕内容分析

YelpDaset: 酒店管理类数据集10+G

NRC词语情绪词典和词语色彩词典

Loughran&McDonald金融文本情感分析库

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：大邓的Python > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

大邓的Python

关注对话

TA的最新馆藏

博客新增留言交流功能
Python实证指标构建与文本分析
cntext2.x | 新增读取pdf/docx| 提取MD&A | 文本可视化等功能
数据集 | 国、省、市三级gov工作报告文本(1954-2024)
LIST | 社科(经管)文本挖掘文献汇总
LIST | 社科(经管)可用数据集列表

喜欢该文的人也喜欢更多

热门阅读换一换