中文自然语言推理与语义相似度数据集汇总

520jefferson 2022-01-05

展开全文

大家好，我是泽军。今天给大家介绍一下中文自然语言推理与文本语义相似度任务中常用的数据集：

哈工大 LCQMC 数据集

AFQMC 蚂蚁金融语义相似度数据集

OPPO 小布对话文本语义匹配数据集

谷歌 PAWS-X 数据集

北大中文文本复述数据集 PKU-Paraphrase-Bank

Chinese-STS-B 数据集

Chinese-MNLI 自然语言推理数据集

Chinese-SNLI 自然语言推理数据集

OCNLI 中文原版自然语言推理数据集

CINLID 中文成语语义推理数据集

以上数据集被汇总整理在 GitHub 仓库：https://github.com/zejunwang1/CSTS

语义相似度

哈工大 LCQMC 数据集

LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集，其目标是判断两个问题的语义是否相同。该数据集的数据预览如下：

喜欢打篮球的男生喜欢什么样的女生爱打篮球的男生喜欢什么样的女生 1我手机丢了，我想换个手机我想买个新手机，求推荐 1大家觉得她好看吗大家觉得跑男好看吗？0

训练集、验证集和测试集的数量统计如下表所示：

数据集名称

train

dev

test

LCQMC

238766

8802

12500

原始数据集链接：http://icrc./Article/show/171.html

AFQMC 蚂蚁金融语义相似度数据集

AFQMC（Ant Financial Question Matching Corpus）蚂蚁金融语义相似度数据集，用于问题相似度计算。即：给定客服里用户描述的两句话，用算法来判断是否表示了相同的语义。每一条数据有三个属性，分别是句子1，句子2，句子相似度标签。标签 '1' ：表示两个句子的语义类似；'0'：表示两个句子的语义不同。

原始数据为 json 格式，笔者将其处理成形如 LCQMC 三列的格式，每列之间使用 '\t' 分隔：

花呗消费超过额度有什么影响吗花呗额度成负数有啥影响吗 1还款还清了，为什么花呗账单显示还要还款花呗全额还清怎么显示没有还款 1花呗一次性付款有限制吗解除花呗支付限制 0

训练集、验证集和测试集的数量统计如下表所示：

数据集名称

train

dev

test

AFQMC

34334

4316

3861

原始数据集链接：https://tianchi.aliyun.com/dataset/dataDetail?dataId=106411

OPPO 小布对话文本语义匹配数据集

该数据集通过对闲聊、智能客服、影音娱乐、信息查询等多领域真实用户交互语料进行用户信息脱敏、相似度筛选处理得到，数据主要特点是文本较短、非常口语化、存在文本高度相似而语义不同的难例。该数据集所有标签都有经过人工精标确认。

原始数据为 json 格式，笔者将其处理成形如 LCQMC 三列的格式，每列之间使用 '\t' 分隔：

我真的超级生气气死我了 1你生日是几月几日你的老师生日是几月几日 0打电话给爱老公给爱老公打电话 1

训练集、验证集和测试集的数量统计如下表所示：

数据集名称

train

dev

test

OPPO-xiaobu

167168

10000

50000

原始数据集链接：https://tianchi.aliyun.com/competition/entrance/531851/introduction

谷歌 PAWS-X 数据集

谷歌发布的同义句识别数据集，中文部分包含了释义对和非释义对，即识别一对句子是否具有相同的释义（含义），特点是具有高度重叠词汇，重点考察模型对句法结构的理解能力。该数据集的数据预览如下：

2 1975年的NBA赛季 - 76赛季是全美篮球协会的第30个赛季。 1975-76赛季的全国篮球协会是NBA的第30个赛季。 13 还有具体的讨论，公众形象辩论和项目讨论。还有公开讨论，特定档案讨论和项目讨论。 04 当可以保持相当的流速时，结果很高。当可以保持可比较的流速时，结果很高。 1

每条数据包含4列，分别表示数据 id，sentence1，sentence2 和 label，每列之间使用 '\t' 分隔。

训练集、验证集和测试集的数量统计如下表所示：

数据集名称

train

dev

test

PAWS-X

49401

2000

原始数据集链接：https://github.com/google-research-datasets/paws

北大中文文本复述数据集 PKU-Paraphrase-Bank

北大发布的中文文本复述语料库，每条数据包含两列，分别表示两个具有相同含义的句子，列与列之间使用 '\t' 分隔。该数据集一共有 509832 组句子对，平均每句 23.05 个词。

莫雷尔指指肩膀，向士兵们暗示那是一个军官，应当给他找个地方暖和暖和。莫雷尔指着他的肩，向士兵们示意，这是一个军官，应当让他暖和一下。他细心地把斧头套在大衣里面的环扣里。他把斧子细心地挂在大衣里面的绳套上。仁慈的上帝！难道那时我灵魂中还有一丝精力未曾使用？仁慈的主呵！那时难道有我心灵中的任何一种能力不曾发挥么？

原始数据集链接：https://github.com/pkucoli/PKU-Paraphrase-Bank/

Chinese-STS-B 数据集

该数据集通过翻译加部分人工修正的方法，从英文原数据集生成，可以一定程度上缓解中文语义相似度计算数据集不够的问题。每条数据包含三列，分别表示 sentence1、sentence2 和相似等级，相似等级范围为 0~5，5 表示语义一致，0 表示语义不相关。

一架飞机要起飞了。一架飞机正在起飞。5一个男人在切面包。一个人在切洋葱。2一个男人在划独木舟。一个人在弹竖琴。0一个男人开着他的车。一个男人在开车。4三个男孩在跳舞。孩子们在跳舞。3一个人一只手握着一只小动物。一个男人在炫耀一只小猴子。1

训练集、验证集和测试集的数量统计如下表所示：

数据集名称

train

dev

test

Chinese-STS-B

5231

1458

1361

原始数据集链接：https://github.com/pluto-junzeng/CNSD

自然语言推理

Chinese-MNLI 自然语言推理数据集

该数据集来自于中文语言理解测评基准 CLUE benchmark（https://github.com/CLUEbenchmark/CLUE），数据内容来自于 fiction、telephone、travel、government、slate 等，通过对原始的英文 MNLI 和 XNLI 数据进行翻译得到。该数据集可用于判断给定的两个句子之间属于蕴涵、中立、矛盾关系。

{'sentence1': '神圣对她来说并不神秘。', 'sentence2': '女人对神圣的东西很熟悉。', 'label': 'entailment'}{'sentence1': '萨达姆可能会在阿拉伯世界的眼中变得更加强大(而美国被玷污了)。', 'sentence2': '美国对萨达姆的看法也会恶化。', 'label': 'neutral'}{'sentence1': '1995年6月21日，规定了评估和报告控制措施的具体要求。', 'sentence2': '对评估没有具体要求。', 'label': 'contradiction'}{'sentence1': '他们整合计划以提高效率并更有效地部署资源。', 'sentence2': '提高效率的计划得到了巩固，因为他们非常关心效率。', 'label': '-'}

原始的每条数据为 json 格式，包含三个属性：sentence1、sentence2 和 label 标签，其中 label 标签有三种：entailment、neutral、contradiction。笔者将原始数据转化成形如 LCQMC 三列的格式，并去除了极少部分标签为 '-' 的数据，处理后的数据预览如下：

我们设法找出各机构在过去5年中普遍采用的做法。我们想找出机构在过去5年中经常使用的做法。entailment在这种令人惊奇的文化融合中，有一种对连续性的热情。对连续性的热情并不是这些文化中最重要的。neutral很慢，现在市面上有很多更好的机器这是最快的机器，你找不到更好的机器。contradiction

训练集、验证集和测试集的数量统计如下表所示：

数据集名称

train

dev

test

Chinese-MNLI

391783

12241

13880

原始数据集链接：https://storage./cluebenchmark/tasks/cmnli_public.zip

Chinese-SNLI 自然语言推理数据集

该数据集通过翻译加人工修正的方法，从英文原数据集生成，可以一定程度上缓解中文自然语言推理数据集不够的问题。该数据集的格式和 Chinese-MNLI 一致，原始的每条数据为 json 格式，笔者将其转化成形如 LCQMC 三列的格式，处理后的数据预览如下：

用马和马车在花园里施肥的农民。这个人正在给他的花园施肥。entailment用马和马车在花园里施肥的农民。那人在一片空地上，有一匹马和一辆马车。neutral用马和马车在花园里施肥的农民。那人带着他的马和马车在城里的大街上。contradiction

训练集、验证集和测试集的数量统计如下表所示：

数据集名称

train

dev

test

Chinese-SNLI

545859

9314

9176

原始数据集链接：https:///jiaodaxin/CNSD

OCNLI 中文原版自然语言推理数据集

原生中文自然语言推理数据集 OCNLI，是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。该数据集来自于中文语言理解测评基准 CLUE benchmark，原始的每条数据为 json 格式：

{ 'level':'medium', 'sentence1':'推进集体林权制度改革', 'sentence2':'推进集体林权制度改革需要分区域逐步施行', 'label':'neutral', 'genre':'gov', 'prem_id':'gov_1862', 'id':18554}{ 'level':'hard', 'sentence1':'推进集体林权制度改革', 'sentence2':'对旧有的林权制度进行调整', 'label':'entailment', 'genre':'gov', 'prem_id':'gov_1862' 'id':18555}{ 'level':'easy', 'sentence1':'推进集体林权制度改革', 'sentence2':'林权为私人所有', 'label':'contradiction', 'genre':'gov', 'prem_id':'gov_1862', 'id':18556}

笔者将原始数据转化成形如 LCQMC 三列的格式，并去除了极少部分标签为 'null' 的数据，三列分别表示 sentence1、sentence2 和 label 标签。处理后的数据预览如下：

推进集体林权制度改革推进集体林权制度改革需要分区域逐步施行 neutral推进集体林权制度改革对旧有的林权制度进行调整 entailment推进集体林权制度改革林权为私人所有 contradiction

训练集、验证集和测试集的数量统计如下表所示：

数据集名称

train

dev

test

OCNLI

50437

2950

3000

数据集原始链接：https://storage./cluebenchmark/tasks/ocnli_public.zip

CINLID 中文成语语义推理数据集

中文成语语义推理数据集（Chinese Idioms Natural Language Inference Dataset）收集了 91,247 个由人工撰写的成语对（含少量歇后语、俗语等短文本），通过人工标注的方式进行平衡分类，标签为 entailment、contradiction 和 neutral，支持自然语言推理（NLI）的任务。

原始数据集以 json 的形式存在，每一行即一条数据，每一条数据包含 sentence1、sentence2、和 label 三个字段，label 的取值范围为 entailment、contradiction 和 neutral。

{'sentence1':'拾陈蹈故','sentence2':'因循守旧','label':'entailment'}{'sentence1':'稀奇古怪','sentence2':'平淡无奇','label':'contradiction'}{'sentence1':'沉滓泛起','sentence2':'凤泊鸾飘','label':'neutral'}

笔者将原始数据转化成形如 LCQMC 三列的格式，预览如下：

拾陈蹈故因循守旧 entailment稀奇古怪平淡无奇 contradiction沉滓泛起凤泊鸾飘 neutral

该数据可用于：

测试语义模型的语义理解能力；

用于微调预训练模型以获得良好的语句表示，能较好的捕捉语义相关性。

原始数据集链接：

https://www./mw/dataset/608a8c45d0bc41001722dc37/contentAINLP一个有趣有AI的自然语言处理公众号：关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人，尝试自动对联、作诗机、藏头诗生成器，调戏夸夸机器人、彩虹屁生成器，使用中英翻译，查询相似词，测试NLP相关工具包。341篇原创内容公众号