Home

Awesome

把自己找到的语料和语言资源整理一下,避免以后需要的时候又浪费时间去收集(长期坑位)。

  1. 数据使用范围、授权请参考原始发布源(如果有的话),如有侵权,请联系我删除。
  2. 有的数据源(网站、论文)提供了多语语料,为避免重复,只在中文或外语对应章节列出(比如翻译)。如有多语资源,会在相应章节进行说明(如需要特定任务的数据集,可以分别在中文和外语语料对应章节进行查看)。
  3. 我这里“问答”和“阅读理解”划分的标准是:输入是一段背景信息或者加上用户query,输出是从背景信息抽取的答案(或者判定不能回复)或者填空,这样的数据集归类为“阅读理解”;“问答”可以看做是对话的另外一种形式。

关注公众号:尘世美小茶馆,获取更多丰富资源。

目录:

<h1 id='1'>1. 中文语料</h1> <h2 id='1.1'>1.1 生语料</h2> <h3 id='1.1.1'>1.1.1 人民日报新闻数据</h3>

包含1946年-2003年人民日报全部数据以及文革网(2005-2008)全部图文数据库。原始发布地址不详,只找到转载的页面 ,作者邮箱应该是 bjdjssgmzsf@yahoo.com ,联系过,没收到回复。原始数据是图文数据库,我将其转存百度网盘 ,然后单独整理了一个sql文件方便使用和查询。大多数情况下,只需要考虑文本内容,我写了一个脚本rmrb.py 将所有新闻导出到txt文件中,方便使用。新闻一共有137万多条。

<h3 id='1.1.2'>1.1.2 微信公众号语料库</h3>

微信公众号语料库:只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文,数据大约3G。


<h2 id='1.2'>1.2 结构化数据</h2> <h3 id='1.2.1'>1.2.1 中国古代人物传记数据库(CBDB)</h3>

中国历代人物传记数据库(The China Biographical Database, CBDB)是一个线上关系型数据库,其远期目标在于系统性地收入中国历史上所有重要的传记资料,其内容无限制地、免费地提供学术研究。截止2018年9月为止,该数据库一共收录了422,600人的传记资料,这些人主要出自七世纪至十九世纪,该数据库目前致力于增录更多的唐代和明清的人物传记资料。

CBDB的数据是用access和sqlite两种数据库进行存储,我转了一个mysql的版本,表格和字段的具体说明请参考官网。由于数据是不断更新的,需要最新数据的请到官网下载。脚本cbdb.py是将sqlite中的数据导入mysql中,如果数据库表格发生改变,可能需要更新一下脚本。

<h2 id='1.3'>1.3 文本分类数据集</h2> <h3 id='1.3.1'>1.3.1 2018法研杯</h3> 2018中国‘法研杯’法律智能挑战赛(任务:罪名预测、法条推荐、刑期预测)的[数据](https://cail.oss-cn-qingdao.aliyuncs.com/CAIL2018_ALL_DATA.zip),数据集共包括268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑。
<h3 id='1.3.2'>1.3.2 今日头条中文新闻(短文本)分类数据集</h3>

今日头条中文新闻(短文本)分类数据集:共382688条,分布于15个分类中,包含民生、文化、娱乐、体育、财经、房产、骑车、教育、科技、军事、旅游、国际、证券、农业、电竞。


<h3 id='1.3.3'>1.3.3 清华新闻分类语料</h3>

清华新闻分类语料:74万篇新闻文档,划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。


<h3 id='1.3.4'>1.3.4 SMP2017中文人机对话评测数据</h3>

包含了两个任务的数据集:用户意图领域分类,特定域任务型人机对话在线评测。第一个数据集用得比较多。用户意图领域分类包含闲聊类、任务垂直类共三十一个类别,属于短文本分类的一个范畴。


<h3 id='1.3.5'>1.3.5 中国新闻网新闻分类语料</h3>

中国新闻网新闻分类语料:从中国新闻网爬取2008-2016年七个新闻种类的新闻,包括中国大陆政治、港澳台政治、国际新闻、金融、文化、娱乐、体育(论文还提到health这个类别,数据里其实没有)。每个样本只包括新闻的第一段话。每个类别样本数相同。140万训练集,11.2万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,Chinanews子文件)


<h3 id='1.3.6'>1.3.6 凤凰网新闻分类语料</h3>

凤凰网新闻分类语料:从凤凰网爬取2006-2016年五个新闻种类的新闻,包括中国大陆政治、国际新闻、港澳台、军事和社会新闻。每个样本只包括新闻的第一段话。每个类别样本数相同。80万训练集,5万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,Ifeng子文件)

<h2 id='1.4'>1.4 序列标注数据集(分词、命名实体识别、词性标注等)</h2> <h3 id='1.4.1'>1.4.1 SiGHAN2005分词数据集</h3> SiGHAN2005分词[数据集](http://sighan.cs.uchicago.edu/bakeoff2005/)(或在我的repo中下载):北大、香港城市大学、台湾“中央研究院”(繁体)、微软亚研院四个机构提供的中文分词数据集。
<h3 id='1.4.2'>1.4.2 MSRA命名实体识别数据集</h3>

MSRA命名实体识别数据集:包含地名、人名和机构名三类。


<h3 id='1.4.3'>1.4.3 人民日报命名实体识别数据集</h3>

人民日报命名实体识别数据集:包含地名、人名和机构名三类。


<h3 id='1.4.4'>1.4.4 微博命名实体识别数据集</h3>

微博命名实体识别数据集:包含地名、人名、机构名、行政区名四类。


<h3 id='1.4.5'>1.4.5 影视-音乐-书籍实体标注数据</h3>

影视、音乐、书籍实体标注数据:类似于人名/地名/组织机构名的命名体识别数据集,大约10000条影视/音乐/书籍数据。


<h3 id='1.4.6'>1.4.6 BosonNLP NER数据</h3>

BosonNLP(好像不维护了,数据可以在我的repo中找到):2000条,包含人名、地名、时间、组织名、公司名、产品名。


<h3 id='1.4.7'>1.4.7 cluener 细粒度实体识别数据集</h3>

cluener:是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据分为10个标签类别,分别为: 地址(address),书名(book),公司(company),游戏(game),政府(government),电影(movie),姓名(name),组织机构(organization),职位(position),景点(scene)


<h3 id='1.4.8'>1.4.8 人民日报2014NER标注数据</h3>

人民日报2014NER标注数据(数据可以在我的repo中找到):包含人名、地点、组织、时间。


<h3 id='1.4.9'>1.4.9 1998年1月-6月人民日报标注语料</h3>

1300W字的新闻标注语料,该语料可用于分词、NER、POS等任务。标记和格式请参考此文章


<h2 id='1.5'>1.5 指代消解</h2> <h3 id='1.5.1'>1.5.1 CLUEWSC2020 </h3>

CLUEWSC2020: WSC Winograd模式挑战中文版,中文指代消解任务,训练集:1244,开发集:304。


<h2 id='1.6'>1.6 对话</h2> <h3 id='1.6.1'>1.6.1 好大夫医疗对话数据集 </h3>

医疗领域对话数据集,110万轮对话,共400万句:从好大夫网上爬的。


<h3 id='1.6.12'>1.6.2 中文医疗对话数据集 </h3>

中文医疗对话数据集

领域数据量
男科94596
内科220606
妇产科183751
肿瘤科75553
儿科101602
外科115991

<h2 id='1.7'>1.7 情感分析</h2> <h3 id='1.7.1'>1.7.1 携程网酒店评论数据</h3>

携程网酒店评论数据:5000+条正向评论,2000+负向评论。


<h3 id='1.7.2'>1.7.2 外卖评论数据</h3>

外卖评论数据:4000+正向,8000+负向。


<h3 id='1.7.3'>1.7.3 电商商品评论数据</h3>

电商商品评论数据:10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条,包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店。


<h3 id='1.7.4'>1.7.4 微博情感数据(2类)</h3>

微博情感数据:10万多条,带情感标注的新浪微博,正负向评论约各 5 万条。


<h3 id='1.7.5'>1.7.5 微博情感数据(4类)</h3>

微博情感数据:36万多条,带情感标注的新浪微博,包含4种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约5万条。


<h3 id='1.7.6'>1.7.6 电影评论评分数据</h3>

电影评论评分数据:28部电影,超70万用户,超200万条评分/评论数据,包括1-5分评分,及评论的点赞数。


<h3 id='1.7.7'>1.7.7 大众点评餐馆评论数据</h3>

大众点评餐馆评论数据:24 万家餐馆,54 万用户,440 万条评论/评分数据。包括总体评分(0-5),环境评分(1-5),口味评分(1-5),服务评分(1-5)


<h3 id='1.7.8'>1.7.8 Amazon商品评论数据</h3>

Amazon商品评论数据:52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据,评分1-5。


<h3 id='1.7.9'>1.7.9 豆瓣电影评论数据</h3>

豆瓣电影评论数据:5万多部电影(3万多有电影名称,2万多没有电影名称),2.8万用户,280万条评分数据,评分1-5。


<h3 id='1.7.10'>1.7.10 大众点评用户评论(2类)</h3>

大众点评用户评论:从大众点评爬取的用户评论。1-3星划分为负面评论、4-5星为正面评论。每个类别样本数相同。200万训练集,50万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,dianping子文件)


<h3 id='1.7.11'>1.7.11 京东用户评论数据</h3>

京东用户评论数据:JD full是五分类数据,1-5星每个星级为一个类别,类别的样本数相同。300万训练集,25万测试集。JD binary是二分类数据,1-2星属于负面评论,4-5星属于正面评论,忽略3星,类别的样本数相同。400万训练集,36万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,JD full和JD binary子文件)


<h2 id='1.8'>1.8 语义相似度(文本蕴含)</h2> <h3 id='1.8.1'>1.8.1 LCQMC</h3>

LCQMC:26万对句子,判别两个问句是否表示相同的意思。(https://pan.baidu.com/s/1yerI7P6Lvm7HdgrKdRJyGQ,提取码:q8y1)


<h3 id='1.8.2'>1.8.2 ChineseSTS</h3>

中文文本语义相似度语料库:相似度值:0-5,5表示相似度最高(意思一样),0表示相似度最低(语义相反或不相干)


<h3 id='1.8.3'>1.8.3 ATEC蚂蚁金服语义相似度数据</h3>

ATEC蚂蚁金服语义相似度数据:给定客服里用户描述的两句话,用算法来判断是否表示了相同的语义(数据集在我repo也可以下载)。


<h2 id='1.9'>1.9 问答</h2> <h3 id='1.9.1'>1.9.1 580万百度知道社群问答</h3>

580万百度知道社群问答:包括超过580万的问题,每个问题带有问题标签。问答对983万个,每个问题的答案个数1.7个,问题标签个数5824个。


<h3 id='1.9.2'>1.9.2 DuReader</h3>

DuReader:百度开源的一个QA和MRC数据集,共140万篇文档,30万个问题,及66万个答案。


<h3 id='1.9.3'>1.9.3 细分领域知道问答数据集</h3>

不同领域的知道问答数据:包含保险、金融、法律等领域,字段有用户query,网友回答和最佳回答。


<h3 id='1.9.4'>1.9.4 社区问答数据集</h3>

社区问答数据:含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个话题,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签。


<h2 id='1.10'>1.10 阅读理解</h2> <h3 id='1.10.1'>1.10.1 人民日报&童话故事</h3>

人民日报&童话故事:完形填空类型的,预测的是一个词,2.8万篇文档,10万个query。


<h3 id='1.10.2'>1.10.2 CMRC2017</h3>

CMRC2017:新闻领域的语料,形式为完形填空和用户提问类两种,共36万+数据。


<h3 id='1.10.3'>1.10.3 CMRC2018</h3>

CMRC2018:维基语料,1.8万个query,形式为给定用户query从上下文抽取span。


<h3 id='1.10.4'>1.10.4 CMRC2019</h3>

CMRC2019:句子级别的完形填空。1000篇文档,10万个query。根据给定的一个叙事篇章以及若干个从篇章中抽取出的句子,参赛者需要建立模型将候选句子精准的填回原篇章中,使之成为完整的一篇文章。与CMRC 2017的不同是:空缺部分不再只是一个词,而是一个句子;每个篇章不只是一个空缺,会包含多个空缺位置,机器可利用的信息大大减少;候选选项中包含假选项,即该选项不属于篇章中任何一个空缺位置,显著增加了解答难度。


<h3 id='1.10.5'>1.10.5 DRCD</h3>

DRCD:维基语料,3.4万个query,形式为给定用户query从上下文抽取span(繁体汉语)。


<h3 id='1.10.6'>1.10.6 C^3</h3>

C^3:文档是混合类型的,有对话、故事、新闻报道、广告等。形式为用户提问类,结果是根据候选答案进行选择(只有一个是正确的)。1.4万篇文档,2.4万query。


<h3 id='1.10.7'>1.10.7 ChiD</h3>

ChiD:成语预测类型任务(完形填空),给定上下文和每个位置候选的成语列表,预测该位置应该填什么成语。共58万篇文档,72.9万query(cloze)。


<h3 id='1.10.8'>1.10.8 DuReader</h3>

DuReader:百度开源的一个QA和MRC数据集,共140万篇文档,30万个问题,及66万个答案。

<h1 id='2'>2. 外语语料</h1> <h2 id='2.1'>2.1 文本分类数据集</h2> <h3 id='2.1.1'>2.1.1 Fake News Corpus</h3>

Fake News Corpus:940万篇新闻,745个类别(domain)。


<h3 id='2.1.2'>2.1.2 AG News</h3>

AG News:100多万的新闻数据,分为全球新闻、运动、商业和科技四类。


<h3 id='2.1.3'>2.1.3 ColBERT</h3>

ColBERT:20万条短文本,判断是否包含幽默元素的二分类数据集,正负各十万。


<h2 id='2.2'>2.2 情感分析</h2> <h3 id='2.2.1'>2.2.1 MovieTweetings</h3>

MovieTweetings:推特电影评分数据集,822,784条,0-10分评分。


<h3 id='2.2.2'>2.2.2 Amazon Fine Food Reviews</h3>

Amazon Fine Food Reviews:亚马逊上的食品评价,包含56万条评论,涉及7.4万产品,1-5分。


<h3 id='2.2.3'>2.2.3 Amazon Reviews</h3>

Amazon Reviews:美亚上面商品的评论数据,有2.3亿条。


<h3 id='2.2.4'>2.2.4 Yelp Open Dataset</h3>

Yelp Open Dataset:包含800多万条评论。


<h3 id='2.2.5'>2.2.5 MovieLens</h3>

MovieLens:包含2500万条电影评论,涉及6万2千部电影和16万用户,100万个标签。


<h2 id='2.3'>2.3 对话</h2> <h3 id='2.3.1'>2.3.1 Twitter Chat Corpus</h3>

Twitter Chat Corpus:500多万推特对话数据。


<h2 id='2.4'>2.4 序列标注数据集(分词、命名实体识别、词性标注等)</h2> <h3 id='2.4.1'>2.4.1 DAWT</h3>

DAWT:包含了六种语言共1300万的文章,实体提及(mention)是链接到Freebase的具体实体上的,标注信息也包括了实体类别。

<h2 id='2.5'>2.5 机器翻译</h2> <h3 id='2.5.1'>2.5.1 Europarl</h3>

欧盟21种语言翻译平行语料:20种语言到英语的平行语料,包括保加利亚语、捷克语、丹麦语、德语、希腊语、西班牙语、爱沙尼亚语、芬兰语、法语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、瑞典语。 百度网盘 y7k3


<h3 id='2.5.2'>2.5.2 United Nations Parallel Corpus</h3>

联合国平行语料,当前版本(1.0)由联合国的官方文件和其他议会文件组成,包含了联合国的六种官方语言(英语、法语、俄语、汉语、阿拉伯语、西班牙语两两之间的平行语料对),语料的内容主要是在1990-2014年之间产生和翻译的,并在句子级别上进行了对齐。百度网盘(目前只包含中文到除阿拉伯语的其他语言翻译对) pnhy


<h3 id='2.5.3'>2.5.3 News-Commentary</h3>

WMT提供的新闻评论语料,共98个双语对,15种语言。百度网盘 igss


<h3 id='2.5.4'>2.5.4 wikititles</h3>

WMT提供的维基百科标题多语对,共11个双语对,14种语言。百度网盘 inxn

News-Commentary和wikititles的下载脚本


<h3 id='2.5.5'>2.5.5 Ted Talk</h3>

Ted上面有丰富的语料资源,包含了109种语言。ajinkyakulkarni14提供了2014年获取的平行语料,和获取语料的脚本

neubig也提供了他们用于论文实验的Ted数据

neubig数据百度网盘 dn6y


<h3 id='2.5.6'>2.5.6 中英翻译数据集</h3>

中英翻译数据集:520万对中英文平行语料,每一个对,包含一个英文和对应的中文。中文或英文,多数情况是一句带标点符号的完整的话。对于一个平行的中英文对,中文平均有36个字,英文平均有19个单词。


<h2 id='2.6'>2.6 语义相似度(文本蕴含)</h2> <h3 id='2.6.1'>2.6.1 PAWS</h3>

PAWS and PAWS-X:Goggle公开的同义句识别语料。PAWS是英文语料,包含108463对英文句子对;PAWS-X包含中、法、德、日、韩、西班牙六种语言的语料,每种语言大约5.3W条。


<h3 id='2.6.2'>2.6.2 DNLI</h3>

Dialogue Natural Language Inference:用于改善对话模型的一致性,判断句子对之间的关系,是蕴含、中性还是矛盾。


<h3 id='2.6.3'>2.6.3 MultiNLI</h3>

MultiNLI Matched/Mismatched:43万对句子,判断是蕴含、中性还是矛盾。包含多种类型的文本,涉及口语和书面语言。


<h3 id='2.6.4'>2.6.4 XNLI</h3>

XNLI:11.2万句子对,判断是蕴含、中性还是矛盾。共有十四种语言,有中文。


<h3 id='2.6.5'>2.6.5 SNLI</h3>

SNLI:57万个句子对,判断是蕴含、中性还是矛盾。


<h3 id='2.6.6'>2.6.6 Quora Question Pairs</h3>

Quora Question Pairs:判断两个问句是否是语义等价的,共40万对。


<h2 id='2.7'>2.7 问答</h2> <h3 id='2.7.1'>2.7.1 MS MARCO</h3>

MS MARCO:100多万的问答数据,也适用于阅读理解、文章排序、关键词抽取等任务。


<h2 id='2.8'>2.8 阅读理解</h2> <h3 id='2.8.1'>2.8.1 HotpotQA</h3>

HotpotQA:100多万问答对。需要多跳推理才能得到正确答案,难度更大。


<h3 id='2.8.2'>2.8.2 SQuAD v2.0</h3>

SQuAD v2.0:15万问答对,依据给出的上下文,其中10万可回答,5万不可回答。


<h3 id='2.8.3'>2.8.3 CoQA</h3>

CoQA:对话问答系统(Conversational Question Answering systems)数据集,从8000对话中整理了12.7W问题和答案。数据集特点:问题是对话形式;答案是自由文本格式;每个答案都能在给定的文章中找到佐证(evidence);文章总共覆盖了7个不同领域。相对阅读理解任务,CoQA需要考虑指代消解和推理两个方面的难点。


<h2 id='2.9'>2.9 文本摘要</h2> <h3 id='2.9.1'>2.9.1 BigPatent</h3>

BigPatent:包含130万的美国专利文档,和人工撰写的摘要。


<h1 id='3'>3. 语言资源</h1> <h2 id='3.1'>3.1 实体类(人名、地名等)</h2> <h3 id='3.1.1'>3.1.1 百科实体</h3>

百科实体(2010年):根据当时百科页面的标签来筛选实体类型(人名、地名),存在一定噪音,酌情使用。95433个地名,278577个人名


<h3 id='3.1.2'>3.1.2 中国古代编年史CBDB实体</h3>

中国古代编年史CBDB实体(2017年):227266个人名和百科的会有重合。


<h2 id='3.2'>3.2 词典类</h2> <h3 id='3.2.1'>3.2.1 百科词条名</h3>

百科词条名(2010年百度百科):一千万词条名


<h3 id='3.2.2'>3.2.2 360万中文词库(包含词性和词频)</h3>

资源作者为刘邵博,由其综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。词典结构为:词语\t词性\t词频。词频是用ansj分词对270G新闻语料进行分词统计词频获得。


<h3 id='3.2.3'>3.2.3 谷歌书籍N-gram数据</h3>

谷歌书籍N-gram数据:分别整理了多种语言的n-gram词典资源,包含中文,从1到5-gram都有。


<h1 id='4'>4. KG数据</h1> <h2 id='4.1'>4.1 百科三元组</h2>

1.4亿三元组中文知识图谱


<h2 id='4.2'>4.2 Dbpedia</h2>

Dbpedia:多语知识图谱数据,共有130亿个三元组,但大部分都是英语。有760个类,1105个关系,1622个属性。


<h2 id='4.3'>4.3 OpenKG</h2>

开放的中文知识图谱社区:这里有很多垂直领域图谱数据,我就不一一放上来了。