分享

收藏 | 中文公开聊天语料库及使用方法(附链接)

 昵称16619343 2019-03-15

该Github库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。

语料内容

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料小黄鸡语料共8个公开闲聊常用语料和短信,并对其进行了统一化规整和处理,达到直接可以粗略使用的目的。

使用方法

下载语料

网盘链接:

https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex

将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为:

raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...

执行命令即可

python main.py

每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。

生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer

query \t answer

Github地址:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多