http://www./?action-category-catid-28 搜狗实验室提供了一些高质量的中文文本数据集,但时间比较早,多为2012年以前的数据。 https://www.sogou.com/labs/resource/list_pingce.php THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,划分出 14 个候选分类。 http://thuctc./#%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E6%95%B0%E6%8D%AE%E9%9B%86THUCNews https://github.com/ymcui/Chinese-RC-Dataset http://thuocl./ 最全中华古诗词数据集,唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。 https://github.com/chinese-poetry/chinese-poetry https://github.com/Embedding/Chinese-Word-Vectors 任天堂游戏《口袋妖怪》中所有小精灵名字的德、英、法、日、韩、中6种语言对照,中文包含繁简体两种格式。 https:///index.php?title=Pok%C3%A9mon-Liste https://pan.baidu.com/s/1gd6mslt https://github.com/shijiebei2009/CEC-Corpus https://github.com/startprogress/China_stock_announcement 包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。 https://github.com/crownpku/Small-Chinese-Corpus TuShare是一个免费、开源的python财经数据接口包。 http:/// https://github.com/Samurais/insuranceqa-corpus-zh 包含中文常见人名、中文古代人名、中文翻译人名、中文姓氏、中文称谓、中文成语等数据。 https://github.com/wainshine/Chinese-Names-Corpus https://github.com/zhangyics/Chinese-abbreviation-dataset 包含: 1)分词词典: 综合了百度、搜狗等词库,以及手动整理的若干人名和新近出现的热词 2)中文停用词: 综合了'百度停用词表','哈工大停用词表','四川大学机器学习实验室停用词表'等若干停用词表,取交集并去除了不需要的标点符号和英文单词 https://github.com/dongxiexidian/Chinese https://github.com/kfcd/chaizi 刻画人们如何描述某个实体,包含新闻、旅游、餐饮,共计30万对。 https://github.com/rainarch/SentiBridge https://github.com/z17176/Chinese_conversation_sentiment 注|本文资料整理来源“景略集智” |
|