Awesome

中文自然语言推理与语义相似度数据集

哈工大 LCQMC 数据集
AFQMC 蚂蚁金融语义相似度数据集
OPPO 小布对话文本语义匹配数据集
谷歌 PAWS-X 数据集
北大中文文本复述数据集 PKU-Paraphrase-Bank
Chinese-STS-B 数据集
Chinese-MNLI 自然语言推理数据集
Chinese-SNLI 自然语言推理数据集
OCNLI 中文原版自然语言推理数据集
CINLID 中文成语语义推理数据集

语义相似度

哈工大 LCQMC 数据集

LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集，其目标是判断两个问题的语义是否相同。该数据集的数据预览如下：

喜欢打篮球的男生喜欢什么样的女生	爱打篮球的男生喜欢什么样的女生		1
我手机丢了，我想换个手机    我想买个新手机，求推荐		1
大家觉得她好看吗	大家觉得跑男好看吗？		0

原始数据集链接：http://icrc.hitsz.edu.cn/Article/show/171.html

AFQMC 蚂蚁金融语义相似度数据集

AFQMC（Ant Financial Question Matching Corpus）蚂蚁金融语义相似度数据集，用于问题相似度计算。即：给定客服里用户描述的两句话，用算法来判断是否表示了相同的语义。每一条数据有三个属性，分别是句子1，句子2，句子相似度标签。标签 "1" ：表示两个句子的语义类似；"0"：表示两个句子的语义不同。

原始数据为 json 格式，本仓库将其处理成形如 LCQMC 三列的格式，每列之间使用 '\t' 分隔：

花呗消费超过额度有什么影响吗	花呗额度成负数有啥影响吗	1
还款还清了，为什么花呗账单显示还要还款		花呗全额还清怎么显示没有还款	1
花呗一次性付款有限制吗		解除花呗支付限制	0

原始数据集链接：https://tianchi.aliyun.com/dataset/dataDetail?dataId=106411

OPPO 小布对话文本语义匹配数据集

该数据集通过对闲聊、智能客服、影音娱乐、信息查询等多领域真实用户交互语料进行用户信息脱敏、相似度筛选处理得到，数据主要特点是文本较短、非常口语化、存在文本高度相似而语义不同的难例。该数据集所有标签都有经过人工精标确认。

原始数据为 json 格式，本仓库将其处理成形如 LCQMC 三列的格式，每列之间使用 '\t' 分隔：

我真的超级生气		气死我了	1
你生日是几月几日	你的老师生日是几月几日		0
打电话给爱老公		给爱老公打电话		1

原始数据集链接：https://tianchi.aliyun.com/competition/entrance/531851/introduction

谷歌 PAWS-X 数据集

谷歌发布的同义句识别数据集，中文部分包含了释义对和非释义对，即识别一对句子是否具有相同的释义（含义），特点是具有高度重叠词汇，重点考察模型对句法结构的理解能力。该数据集的数据预览如下：

2	1975年的NBA赛季 -  76赛季是全美篮球协会的第30个赛季。	1975-76赛季的全国篮球协会是NBA的第30个赛季。	1
3	还有具体的讨论，公众形象辩论和项目讨论。    还有公开讨论，特定档案讨论和项目讨论。		0
4	当可以保持相当的流速时，结果很高。	当可以保持可比较的流速时，结果很高。	1

每条数据包含4列，分别表示数据 id，sentence1，sentence2 和 label，每列之间使用 '\t' 分隔。

原始数据集链接：https://github.com/google-research-datasets/paws

北大中文文本复述数据集 PKU-Paraphrase-Bank

北大发布的中文文本复述语料库，每条数据包含两列，分别表示两个具有相同含义的句子，列与列之间使用 '\t' 分隔。该数据集一共有 509832 组句子对，平均每句 23.05 个词。

莫雷尔指指肩膀，向士兵们暗示那是一个军官，应当给他找个地方暖和暖和。	莫雷尔指着他的肩，向士兵们示意，这是一个军官，应当让他暖和一下。
他细心地把斧头套在大衣里面的环扣里。	他把斧子细心地挂在大衣里面的绳套上。
仁慈的上帝！难道那时我灵魂中还有一丝精力未曾使用？	仁慈的主呵！那时难道有我心灵中的任何一种能力不曾发挥么？

原始数据集链接：https://github.com/pkucoli/PKU-Paraphrase-Bank/

Chinese-STS-B 数据集

该数据集通过翻译加部分人工修正的方法，从英文原数据集生成，可以一定程度上缓解中文语义相似度计算数据集不够的问题。每条数据包含三列，分别表示 sentence1、sentence2 和相似等级，相似等级范围为 0~5，5 表示语义一致，0 表示语义不相关。

一架飞机要起飞了。	一架飞机正在起飞。	5
一个男人在切面包。	一个人在切洋葱。	2
一个男人在划独木舟。	一个人在弹竖琴。	0
一个男人开着他的车。	一个男人在开车。	4
三个男孩在跳舞。	孩子们在跳舞。		3
一个人一只手握着一只小动物。	一个男人在炫耀一只小猴子。	1

原始数据集链接：https://github.com/pluto-junzeng/CNSD

自然语言推理

Chinese-MNLI 自然语言推理数据集

该数据集来自于中文语言理解测评基准 CLUE benchmark（https://github.com/CLUEbenchmark/CLUE ），数据内容来自于 fiction、telephone、travel、government、slate 等，通过对原始的英文 MNLI 和 XNLI 数据进行翻译得到。该数据集可用于判断给定的两个句子之间属于蕴涵、中立、矛盾关系。

{"sentence1": "神圣对她来说并不神秘。", "sentence2": "女人对神圣的东西很熟悉。", "label": "entailment"}
{"sentence1": "萨达姆可能会在阿拉伯世界的眼中变得更加强大(而美国被玷污了)。", "sentence2": "美国对萨达姆的看法也会恶化。", "label": "neutral"}
{"sentence1": "1995年6月21日，规定了评估和报告控制措施的具体要求。", "sentence2": "对评估没有具体要求。", "label": "contradiction"}
{"sentence1": "他们整合计划以提高效率并更有效地部署资源。", "sentence2": "提高效率的计划得到了巩固，因为他们非常关心效率。", "label": "-"}

原始的每条数据为 json 格式，包含三个属性：sentence1、sentence2 和 label 标签，其中 label 标签有三种：entailment、neutral、contradiction。本仓库将原始数据转化成形如 LCQMC 三列的格式，并去除了极少部分标签为 "-" 的数据，处理后的数据预览如下：

我们设法找出各机构在过去5年中普遍采用的做法。		我们想找出机构在过去5年中经常使用的做法。	entailment
在这种令人惊奇的文化融合中，有一种对连续性的热情。	对连续性的热情并不是这些文化中最重要的。	neutral
很慢，现在市面上有很多更好的机器    这是最快的机器，你找不到更好的机器。	contradiction

原始数据集链接：https://storage.googleapis.com/cluebenchmark/tasks/cmnli_public.zip

Chinese-SNLI 自然语言推理数据集

该数据集通过翻译加人工修正的方法，从英文原数据集生成，可以一定程度上缓解中文自然语言推理数据集不够的问题。该数据集的格式和 Chinese-MNLI 一致，原始的每条数据为 json 格式，本仓库将其转化成形如 LCQMC 三列的格式，处理后的数据预览如下：

用马和马车在花园里施肥的农民。		这个人正在给他的花园施肥。	entailment
用马和马车在花园里施肥的农民。		那人在一片空地上，有一匹马和一辆马车。		neutral
用马和马车在花园里施肥的农民。		那人带着他的马和马车在城里的大街上。	contradiction

原始数据集链接：https://gitee.com/jiaodaxin/CNSD

OCNLI 中文原版自然语言推理数据集

原生中文自然语言推理数据集 OCNLI，是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。该数据集来自于中文语言理解测评基准 CLUE benchmark（https://github.com/CLUEbenchmark/OCNLI ），原始的每条数据为 json 格式：

{
    "level":"medium",
    "sentence1":"推进集体林权制度改革",
    "sentence2":"推进集体林权制度改革需要分区域逐步施行",
    "label":"neutral",
    "genre":"gov",
    "prem_id":"gov_1862",
    "id":18554
}
{
    "level":"hard",
    "sentence1":"推进集体林权制度改革",
    "sentence2":"对旧有的林权制度进行调整",
    "label":"entailment",
    "genre":"gov",
    "prem_id":"gov_1862"
    "id":18555
}
{
    "level":"easy",
    "sentence1":"推进集体林权制度改革",
    "sentence2":"林权为私人所有",
    "label":"contradiction",
    "genre":"gov",
    "prem_id":"gov_1862",
    "id":18556
}

本仓库将原始数据转化成形如 LCQMC 三列的格式，并去除了极少部分标签为 "null" 的数据，三列分别表示 sentence1、sentence2 和 label 标签。处理后的数据预览如下：

推进集体林权制度改革		推进集体林权制度改革需要分区域逐步施行		neutral
推进集体林权制度改革		对旧有的林权制度进行调整    entailment
推进集体林权制度改革		林权为私人所有		contradiction

数据集原始链接：https://storage.googleapis.com/cluebenchmark/tasks/ocnli_public.zip

CINLID 中文成语语义推理数据集

中文成语语义推理数据集（Chinese Idioms Natural Language Inference Dataset）收集了 91,247 个由人工撰写的成语对（含少量歇后语、俗语等短文本），通过人工标注的方式进行平衡分类，标签为 entailment、contradiction 和 neutral，支持自然语言推理（NLI）的任务。

原始数据集以 json 的形式存在，每一行即一条数据，每一条数据包含 sentence1、sentence2、和 label 三个字段，label 的取值范围为 entailment、contradiction 和 neutral。

{"sentence1":"拾陈蹈故","sentence2":"因循守旧","label":"entailment"}
{"sentence1":"稀奇古怪","sentence2":"平淡无奇","label":"contradiction"}
{"sentence1":"沉滓泛起","sentence2":"凤泊鸾飘","label":"neutral"}

本仓库将原始数据转化成形如 LCQMC 三列的格式，预览如下：

拾陈蹈故	因循守旧	entailment
稀奇古怪	平淡无奇	contradiction
沉滓泛起	凤泊鸾飘	neutral

该数据可用于：

测试语义模型的语义理解能力；
用于微调预训练模型以获得良好的语句表示，能较好的捕捉语义相关性。

原始数据集链接：https://www.heywhale.com/mw/dataset/608a8c45d0bc41001722dc37/content

声明

本仓库数据集只能用于学术研究，请勿用作商业。