资源|道理我都懂，中文文本数据集哪里找？！

heii2 2018-06-11

展开全文

中科大自然语言处理与信息检索共享平台

http://www./?action-category-catid-28

搜狗实验室

搜狗实验室提供了一些高质量的中文文本数据集，但时间比较早，多为2012年以前的数据。

https://www.sogou.com/labs/resource/list_pingce.php

中文文本分类数据集THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档，划分出 14 个候选分类。

http://thuctc./#%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E6%95%B0%E6%8D%AE%E9%9B%86THUCNews

中文完形填空数据集

https://github.com/ymcui/Chinese-RC-Dataset

清华大学开放中文词库

http://thuocl./

中华古诗词数据库

最全中华古诗词数据集，唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人，21050首词。

https://github.com/chinese-poetry/chinese-poetry

上百种预训练中文词向量

https://github.com/Embedding/Chinese-Word-Vectors

《口袋妖怪》跨语种命名对照数据集

任天堂游戏《口袋妖怪》中所有小精灵名字的德、英、法、日、韩、中6种语言对照，中文包含繁简体两种格式。

https:///index.php?title=Pok%C3%A9mon-Liste

1998年《人民日报》词性标注库

https://pan.baidu.com/s/1gd6mslt

中文突发事件语料库

https://github.com/shijiebei2009/CEC-Corpus

中国股市爬取信息数据集

https://github.com/startprogress/China_stock_announcement

中文语料小数据

包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。

https://github.com/crownpku/Small-Chinese-Corpus

Tushare财经数据接口

TuShare是一个免费、开源的python财经数据接口包。

http:///

保险行业语料库

https://github.com/Samurais/insuranceqa-corpus-zh

中文人名语料库

包含中文常见人名、中文古代人名、中文翻译人名、中文姓氏、中文称谓、中文成语等数据。

https://github.com/wainshine/Chinese-Names-Corpus

中文简称数据集

https://github.com/zhangyics/Chinese-abbreviation-dataset

中文数据预处理材料

包含：

1）分词词典: 综合了百度、搜狗等词库，以及手动整理的若干人名和新近出现的热词

2）中文停用词: 综合了'百度停用词表'，'哈工大停用词表'，'四川大学机器学习实验室停用词表'等若干停用词表，取交集并去除了不需要的标点符号和英文单词

https://github.com/dongxiexidian/Chinese

汉字拆字字典

https://github.com/kfcd/chaizi

中文实体情感知识库

刻画人们如何描述某个实体，包含新闻、旅游、餐饮，共计30万对。

https://github.com/rainarch/SentiBridge

中文对话情感分析数据集

https://github.com/z17176/Chinese_conversation_sentiment

注|本文资料整理来源“景略集智”

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： heii2 > 《大数据》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

heii2

关注对话

TA的最新馆藏

广式牛腩的制作
泡出的川味（二）泡菜的冤屈
甜筒鲑鱼,生焗跳跳骨,老盐菜爆深海脆螺片,红藜麦焗深海大虾球,荷花藕泥...创意存于细节中创意菜品10例
精辟！一个处长眼里“最值钱”的10条处事原则！越早知道越好！
深度好文：阶级跃迁的核心策略
资治通鉴：领导安排了陷阱任务，该如何避免担责

喜欢该文的人也喜欢更多

热门阅读换一换