Awesome

中文生成式预训练模型

NLU的预训练模型大家应该见过不少了，NLG的预训练资源还比较少。这里汇总一些中文的生成式预训练模型，给出bert4keras下的加载方式。

模型列表

GPT

以GPT为代表的单向语言模型预训练。

GPT Base（NEZHE-GEN）

链接：https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/NEZHA-Gen-TensorFlow
大小：1亿参数，体积390M
说明：结构跟BERT Base一致，通用语料训练，官方github提供了下载链接，不过保存了多余的meta导致体积过大，笔者对原始权重进行了转换，可以从笔者提供的链接（百度网盘，验证码xynn）下载，结果跟原版一样，体积更小。
使用：basic_language_model_nezha_gen_gpt.py

CDial-GPT

链接：https://github.com/bojone/CDial-GPT-tf （原版链接：https://github.com/thu-coai/CDial-GPT ）
大小：1亿参数，体积350M
说明：模型为GPT模型，使用闲聊型对话语料训练。原版为pytorch模型，笔者对原始权重进行了转换。
使用：example.py

GPT2-ML

链接：https://github.com/imcaspar/gpt2-ml
大小：15亿参数，体积5.3G
说明：基于BERT代码修改，跟最大的英文版GPT2大小一致，通用语料训练，目前开放了两个版本，详情请查看项目说明。
使用：basic_language_model_gpt2_ml.py

其他

一般情况下，直接在BERT等NLU式预训练模型中加入UniLM式的Attention Mask，也可以用来做Seq2Seq参考，例子可以参考task_seq2seq_autotitle_csl.py。

交流

QQ交流群：67729435，微信群请加机器人微信号spaces_ac_cn