Awesome

bert4keras

Our light reimplement of bert for keras
更清晰、更轻量级的keras版bert
个人博客：https://kexue.fm/
在线文档：http://bert4keras.spaces.ac.cn/ （还在构建中）

说明

这是笔者重新实现的keras版的transformer模型库，致力于用尽可能清爽的代码来实现结合transformer和keras。

本项目的初衷是为了修改、定制上的方便，所以可能会频繁更新。

因此欢迎star，但不建议fork，因为你fork下来的版本可能很快就过期了。

功能

目前已经实现：

加载bert/roberta/albert的预训练权重进行finetune；
实现语言模型、seq2seq所需要的attention mask；
丰富的<a href="https://github.com/bojone/bert4keras/tree/master/examples">examples</a>；
从零预训练代码（支持TPU、多GPU，请看<a href="https://github.com/bojone/bert4keras/tree/master/pretraining">pretraining</a>）；
兼容keras、tf.keras

使用

安装稳定版：

pip install bert4keras

安装最新版：

pip install git+https://www.github.com/bojone/bert4keras.git

使用例子请参考<a href="https://github.com/bojone/bert4keras/blob/master/examples">examples</a>目录。

之前基于keras-bert给出的<a href="https://github.com/bojone/bert_in_keras">例子</a>，仍适用于本项目，只需要将bert_model的加载方式换成本项目的。

理论上兼容Python2和Python3，兼容tensorflow 1.14+和tensorflow 2.x，实验环境是Python 2.7、Tesorflow 1.14+以及Keras 2.3.1（已经在2.2.4、2.3.0、2.3.1、tf.keras下测试通过）。

为了获得最好的体验，建议你使用Tensorflow 1.14 + Keras 2.3.1组合。

<blockquote>关于环境组合

支持tf+keras和tf+tf.keras，后者需要提前传入环境变量TF_KERAS=1。
当使用tf+keras时，建议2.2.4 <= keras <= 2.3.1，以及 1.14 <= tf <= 2.2，不能使用tf 2.3+。
keras 2.4+可以用，但事实上keras 2.4.x基本上已经完全等价于tf.keras了，因此如果你要用keras 2.4+，倒不如直接用tf.keras。

</blockquote>

当然，乐于贡献的朋友如果发现了某些bug的话，也欢迎指出修正甚至Pull Requests～

权重

目前支持加载的权重：

Google原版bert: https://github.com/google-research/bert
brightmart版roberta: https://github.com/brightmart/roberta_zh
哈工大版roberta: https://github.com/ymcui/Chinese-BERT-wwm
Google原版albert<a href="https://github.com/bojone/bert4keras/issues/29#issuecomment-552188981">[例子]</a>: https://github.com/google-research/ALBERT
brightmart版albert: https://github.com/brightmart/albert_zh
转换后的albert: https://github.com/bojone/albert_zh
华为的NEZHA: https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/NEZHA-TensorFlow
华为的NEZHA-GEN: https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/NEZHA-Gen-TensorFlow
自研语言模型: https://github.com/ZhuiyiTechnology/pretrained-models
T5模型: https://github.com/google-research/text-to-text-transfer-transformer
GPT_OpenAI: https://github.com/bojone/CDial-GPT-tf
GPT2_ML: https://github.com/imcaspar/gpt2-ml
Google原版ELECTRA: https://github.com/google-research/electra
哈工大版ELECTRA: https://github.com/ymcui/Chinese-ELECTRA
CLUE版ELECTRA: https://github.com/CLUEbenchmark/ELECTRA
LaBSE（多国语言BERT）: https://github.com/bojone/labse
Chinese-GEN项目下的模型: https://github.com/bojone/chinese-gen
T5.1.1: https://github.com/google-research/text-to-text-transfer-transformer/blob/master/released_checkpoints.md#t511
Multilingual T5: https://github.com/google-research/multilingual-t5/

注意事项

注1：brightmart版albert的开源时间早于Google版albert，这导致早期brightmart版albert的权重与Google版的不完全一致，换言之两者不能直接相互替换。为了减少代码冗余，bert4keras的0.2.4及后续版本均只支持加载Google版以brightmart版中带Google字眼的权重。如果要加载早期版本的权重，请用<a href="https://github.com/bojone/bert4keras/releases/tag/v0.2.3">0.2.3版本</a>，或者考虑作者转换过的<a href="https://github.com/bojone/albert_zh">albert_zh</a>。
注2：下载下来的ELECTRA权重，如果没有json配置文件的话，参考<a href="https://github.com/ymcui/Chinese-ELECTRA/issues/3">这里</a>自己改一个（需要加上type_vocab_size字段）。

更新

2023.03.06: 无穷大改np.inf；优化显存占用。将无穷大改为np.inf，运算更加准确，而且在低精度运算时不容易出错；同时合并了若干mask算子，减少了显存占用。实测在A100上训练base和large级别模型时，速度有明显加快，显存占用也有降低。
2022.03.20: 增加RoFormerV2。
2022.02.28: 增加GatedAttentionUnit。
2021.04.23: 增加GlobalPointer。
2021.03.23: 增加RoFormer。
2021.01.30: 发布0.9.9版，完善多GPU支持，增加多GPU例子：task_seq2seq_autotitle_multigpu.py。
2020.12.29: 增加residual_attention_scores参数来实现RealFormer，只需要在build_transformer_model中传入参数residual_attention_scores=True启用。
2020.12.04: PositionEmbedding引入层次分解，可以让BERT直接处理超长文本，在build_transformer_model中传入参数hierarchical_position=True启用。
2020.11.19: 支持GPT2模型，参考CPM_LM_bert4keras项目。
2020.11.14: 新增分参数学习率extend_with_parameter_wise_lr，可用于给每层设置不同的学习率。
2020.10.27: 支持<a href="https://github.com/google-research/text-to-text-transfer-transformer/blob/master/released_checkpoints.md#t511">T5.1.1</a>和<a href="https://github.com/google-research/multilingual-t5/">Multilingual T5</a>。
2020.08.28: 支持<a href="https://github.com/bojone/CDial-GPT-tf">GPT_OpenAI</a>。
2020.08.22: 新增WebServing类，允许简单地将模型转换为Web接口，详情请参考该类的<a href="https://github.com/bojone/bert4keras/blob/8d55512a12e4677262363ac189ebf504fc451716/bert4keras/snippets.py#L580">说明</a>。
2020.07.14: Transformer类加入prefix参数；snippets.py引入to_array函数；AutoRegressiveDecoder修改rtype='logits'时的一个隐藏bug。
2020.06.06: 强迫症作祟：将Tokenizer原来的max_length参数重命名为maxlen，同时保留向后兼容性，建议大家用新参数名。
2020.04.29: 增加重计算（参考<a href="https://github.com/bojone/keras_recompute">keras_recompute</a>），可以通过时间换空间，通过设置环境变量RECOMPUTE=1启用。
2020.04.25: 优化tf2下的表现。
2020.04.16: 所有example均适配tensorflow 2.0。
2020.04.06: 增加UniLM预训练模式（测试中）。
2020.04.06: 完善rematch方法。
2020.04.01: Tokenizer增加rematch方法，给出分词结果与原序列的映射关系。
2020.03.30: 尽量统一py文件的写法。
2020.03.25: 支持ELECTRA。
2020.03.24: 继续加强DataGenerator，允许传入迭代器时进行局部shuffle。
2020.03.23: 增加调整Attention的key_size的选项。
2020.03.17: 增强DataGenerator；优化模型写法。
2020.03.15: 支持<a href="https://github.com/imcaspar/gpt2-ml">GPT2_ML</a>。
2020.03.10: 支持Google的<a href="https://github.com/google-research/text-to-text-transfer-transformer">T5</a>模型。
2020.03.05: 将tokenizer.py更名为tokenizers.py。
2020.03.05: application='seq2seq'改名为application='unilm'。
2020.03.05: build_bert_model更名为build_transformer_model。
2020.03.05: 重写models.py结构。
2020.03.04: 将bert.py更名为models.py。
2020.03.02: 重构mask机制（用回Keras自带的mask机制），以便更好地编写更复杂的应用。
2020.02.22: 新增AutoRegressiveDecoder类，统一处理Seq2Seq的解码问题。
2020.02.19: transformer block的前缀改为Transformer（本来是Encoder），使得其含义局限性更少。
2020.02.13: 优化load_vocab函数；将build_bert_model中的keep_words参数更名为keep_tokens，此处改动可能会对部分脚本产生影响。
2020.01.18: 调整文本处理方式，去掉codecs的使用。
2020.01.17: 各api日趋稳定，为了方便大家使用，打包到<a href="https://pypi.org/project/bert4keras/">pypi</a>，首个打包版本号为0.4.6。
2020.01.10: 重写模型mask方案，某种程度上让代码更为简练清晰；后端优化。
2019.12.27: 重构预训练代码，减少冗余；目前支持RoBERTa和GPT两种预训练方式，详见<a href="https://github.com/bojone/bert4keras/tree/master/pretraining/">pretraining</a>。
2019.12.17: 适配华为的<a href="https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/NEZHA">nezha</a>权重，只需要在build_bert_model函数里加上model='nezha'；此外原来albert的加载方式albert=True改为model='albert'。
2019.12.16: 通过跟keras 2.3+版本类似的思路给低版本引入层中层功能，从而恢复对低于2.3.0版本的keras的支持。
2019.12.14: 新增Conditional Layer Normalization及相关demo。
2019.12.09: 各example的data_generator规范化；修复application='lm'时的一个错误。
2019.12.05: 优化tokenizer的do_lower_case，同时微调各个example。
2019.11.23: 将train.py重命名为optimizers.py，更新大量优化器实现，全面兼容keras和tf.keras。
2019.11.19: 将utils.py重命名为tokenizer.py。
2019.11.19: 想来想去，最后还是决定把snippets放到<a href="https://github.com/bojone/bert4keras/blob/master/bert4keras/snippets.py">bert4keras.snippets</a>下面去好了。
2019.11.18: 优化预训练权重加载逻辑，增加保存模型权重至Bert的checkpoint格式方法。
2019.11.17: <del>分离一些与Bert本身不直接相关的常用代码片段到<a href="https://github.com/bojone/python-snippets">python_snippets</a>，供其它项目共用。</del>
2019.11.11: 添加NSP部分。
2019.11.05: 适配<a href="https://github.com/google-research/google-research/tree/master/albert">google版albert</a>，不再支持<a href="https://github.com/brightmart/albert_zh">非Google版albert_zh</a>。
2019.11.05: 以RoBERTa为例子的预训练代码开发完毕，同时支持TPU/多GPU训练，详见<a href="https://github.com/bojone/bert4keras/tree/master/pretraining/roberta/">roberta</a>。欢迎在此基础上构建更多的预训练代码。
2019.11.01: 逐步增加预训练相关代码，详见<a href="https://github.com/bojone/bert4keras/tree/master/pretraining">pretraining</a>。
2019.10.28: 支持使用基于<a href="https://github.com/google/sentencepiece">sentencepiece</a>的tokenizer。
2019.10.25: 引入原生tokenizer。
2019.10.22: 引入梯度累积优化器。
2019.10.21: 为了简化代码结构，决定放弃keras 2.3.0之前的版本的支持，目前只支持keras 2.3.0+以及tf.keras。
2019.10.20: 应网友要求，现支持直接用model.save保存模型结构，用load_model加载整个模型（只需要在load_model之前执行from bert4keras.layers import *，不需要额外写custom_objects）。
2019.10.09: 已兼容tf.keras，同时在tf 1.13和tf 2.0下的tf.keras测试通过，通过设置环境变量TF_KERAS=1来切换tf.keras。
2019.10.09: 已兼容Keras 2.3.x，但只是临时方案，后续可能直接移除掉2.3之前版本的支持。
2019.10.02: 适配albert，能成功加载<a href="https://github.com/brightmart/albert_zh">albert_zh</a>的权重，只需要在load_pretrained_model函数里加上albert=True。

背景

之前一直用CyberZHG大佬的<a href="https://github.com/CyberZHG/keras-bert">keras-bert</a>，如果纯粹只是为了在keras下对bert进行调用和fine tune来说，keras-bert已经足够能让人满意了。

然而，如果想要在加载官方预训练权重的基础上，对bert的内部结构进行修改，那么keras-bert就比较难满足我们的需求了，因为keras-bert为了代码的复用性，几乎将每个小模块都封装为了一个单独的库，比如keras-bert依赖于keras-transformer，而keras-transformer依赖于keras-multi-head，keras-multi-head依赖于keras-self-attention，这样一重重依赖下去，改起来就相当头疼了。

所以，我决定重新写一个keras版的bert，争取在几个文件内把它完整地实现出来，减少这些依赖性，并且保留可以加载官方预训练权重的特性。

鸣谢

感谢CyberZHG大佬实现的<a href="https://github.com/CyberZHG/keras-bert">keras-bert</a>，本实现有不少地方参考了keras-bert的源码，在此衷心感谢大佬的无私奉献。

引用

@misc{bert4keras,
  title={bert4keras},
  author={Jianlin Su},
  year={2020},
  howpublished={\url{https://bert4keras.spaces.ac.cn}},
}

Awesome

bert4keras

说明

功能

使用

权重

更新

背景

鸣谢

相关

引用