Home

Awesome

OpenCLaP:多领域开源中文预训练语言模型仓库

目录

项目简介

OpenCLaP(Open Chinese Language Pre-trained Model Zoo)是由清华大学人工智能研究院自然语言处理与社会人文计算研究中心推出的一个多领域中文预训练模型仓库。预训练语言模型通过在大规模文本上进行预训练,可以作为下游自然语言处理任务的模型参数或者模型输入以提高模型的整体性能。该模型仓库具有如下几个特点:

模型概览

以下是我们目前公开发布的模型概览:

名称基础模型数据来源训练数据大小词表大小模型大小下载地址
民事文书BERTbert-base全部民事文书2654万篇文书22554370MB点我下载
刑事文书BERTbert-base全部刑事文书663万篇文书22554370MB点我下载
百度百科BERTbert-base百度百科903万篇词条22166367MB点我下载

使用方式

我们提供的模型可以被开源项目pytorch-pretrained-BERT直接使用。以民事文书BERT为例,具体使用方法分为两步:

wget https://thunlp.oss-cn-qingdao.aliyuncs.com/bert/ms.zip
unzip ms.zip

项目网站

请访问 http://zoo.thunlp.org 以获得更多有关信息。

引用

Bibtex:

@techreport{zhong2019openclap,
  title={Open Chinese Language Pre-trained Model Zoo},
  author={Zhong, Haoxi and Zhang, Zhengyan and Liu, Zhiyuan and Sun, Maosong},
  year={2019},
  url = "https://github.com/thunlp/openclap",
}

作者与致谢

Haoxi Zhong(钟皓曦,硕士生), Zhengyan Zhang(张正彦,本科生), Zhiyuan Liu(刘知远,副教授), Maosong Sun(孙茂松,教授).

感谢幂律智能对本项目的大力支持与帮助。

<img src="http://zoo.thunlp.org/static/images/powerlaw.png" height="120px">