Home

Awesome

ChineseSquad

中文机器阅读理解数据集,本数据集通过机器翻译加人工校正的方式从原始Squad转换而来,其中包括V1.1 和V2.0。由于部分翻译无法找到原文中的答案(短答案翻译和文档翻译有出入),故数据量对比原始英文版SQuAD 有所减少。

NEWS

为什么这么做?

现有中文抽取式机器阅读理解数据集存在数据量较小,或者领域专一的特点

数据集

数据集有答案无答案总数下载链接
squad-zen 1.0 train6821343498110ksquad-zen 1.0 train
squad-zen 1.0 dev8326595414ksquad-zen 1.0 dev
squad 2.0 train465304349890Ksquad 2.0 train
squad 2.0 dev339159459Ksquad 2.0 dev
squad 1.1 dev7679-7ksquad 1.1 dev
squad 1.1 train55526-55ksquad 1.1 train

实验结果

modeldatadev-EMdev-F1
BERT-basev1.156.7456.79
BERT-baseV2.061.1461.17
BERT-basezen 1.070.8470.86
RoBERTa-largezen 1.072.9472.97

一种提升下游任务表现的预训练方法

为了验证构建的 Chinese-SQuAD 数据集的鲁棒性,比较不同中文机器阅 读理解数据集作为二次预训练数据集在“2020 语言与智能技术竞赛的机器阅读理解 任务”上的表现。DuReader robust数据集中只包含有答案的问题,可以用来衡量 阅读理解模型的鲁棒性,评测模型的过敏感性、过稳定性以及泛化能力。 实验方法如下:

截止 2020 年 4 月 14 日,使用 Chinese-SQuAD 进行二次预 训练的 JointAtt-MRC 在 DuReader robust 鲁棒性测试集上取得了最好成绩。

数据集名称数量EMF1
-061.2376.24
Chinese-SQuAD *55K64.3278.64
Dureader*120K58.0574.40↓
DRCD*35K63.7177.95
CMRC10K61.9276.39
CJRC*40K62.6577.20

参考

SQuAD 2.0:The Stanford Question Answering Dataset

CNSD:中文自然语言推理数据集

致谢

感谢百度云提供计算服务

声明

该数据集只能用于学术研究,请勿商用。