Home

Awesome

LLMとLoRAを用いたテキスト分類

大規模言語モデル(LLM)は昨今ますます注目を集めていますが、zero/few-shot学習能力を評価されることが多く、BERTなど既存の事前学習済みモデルのようにfine-tuningを行ってテキスト分類をさせる、という用途にはそこまで利用されていないような気がしています。 そこで、LLMはどのくらいテキスト分類ができるのか調べるため、BERTを用いたテキスト分類と同様の方法によって、LLMをテキスト分類に用いる実験を行いました。

モデル概要

本実験の目的は、「zero/few-shot学習能力が注目されがちなLLMを、通常のテキスト分類に用いた場合にどうなるか」について調べることです。

今までテキスト分類によく利用されていたBERTは双方向のモデルであり、テキスト分類のために文頭トークン[CLS]をよく利用していました。 しかし、最近よく利用されるLLM、例えばLLaMAなどは単方向のモデルです。 そのため、単方向のモデルでは文頭トークンを取ることに意味がありません。 そこで本実装では、transformersLlamaForSequenceClassificationクラスを参考に、文末トークンの埋め込み表現をテキスト分類に利用します。 単方向言語モデルにおける文末トークンは、系列中で唯一文全体のトークンを考慮可能なので、[CLS]の代替として適切であると考えられます。

また、LLMをFull Fine-tuningするのはメモリ・計算効率的な観点から非常に大変なので、追加の低ランク行列のみを調整することで、Full Fine-tuningと同等の性能を達成できる微調整手法であるLoRAを利用します。 備考: LoRAの解説資料 LoRAによる微調整のため、PEFTを利用します。

評価実験

評価実験では、livedoorニュースコーパスの9値分類を行います。 実験内容は、筆者のBERTによるテキスト分類チュートリアルとほぼ同様です。

評価実験では、7種類の日本語LLMを用いました。 具体的には、rinna社の3.6Bモデル4種類と、CyberAgent社の7B, 3B, 1Bモデルについてそれぞれ実験を行いました。

ハイパーパラメータの調整として、学習率を1e-4, 3e-4, 5e-4, 1e-3に設定してそれぞれ実験を行いました。 また、モデルへの入力の形式を3種類実験しました。 具体的には、ライブドアニュースコーパス中の各記事について、タイトルをtitle, 記事本文をbodyという変数に格納し、以下の3つのテンプレートに注入しました。

Template Type見た目
0f"タイトル: {title}\n本文: {body}\nラベル: "
1f"タイトル: {title}\n本文: {body}"
2f"{title}\n{body}"

以上の、学習率・テンプレートについてすべての組み合わせで1回ずつ実験を行い、開発セットでのmacro平均F値が最も高くなったハイパーパラメータを最終的なテストセットでの評価に用いました。 LoRAのランクrは32に固定しています。

実験結果に対する注意ですが、実験は単一の乱数シード値で1度しか実施しておらず、分割交差検証も行っていないので、実験結果の正確性は高くありません。 したがって、以下の結果は過度に信用せず、参考程度に見てもらうよう、お願いいたします。

では、結果を以下の表に示します。 実験結果は、macro平均F値について降順に並んでいます。 なお、以降の結果はすべてresultsディレクトリに保存されているCSVファイルから確認することができます。

AccuracyPrecisionRecallF1
rinna/japanese-gpt-neox-3.6b-instruction-sft-v297.9697.7797.7697.75
rinna/japanese-gpt-neox-3.6b97.5597.2497.3997.30
rinna/japanese-gpt-neox-3.6b-instruction-sft97.5597.3297.2797.27
rinna/japanese-gpt-neox-3.6b-instruction-ppo97.5597.0397.3797.18
cyberagent/open-calm-7b97.0196.7696.4296.55
cyberagent/open-calm-3b96.8896.3896.5196.42
cyberagent/open-calm-1b94.4394.2493.8093.98

表から、指示チューニングされたrinna/japanese-gpt-neox-3.6b-instruction-sft-v2が最も高いF値を示したことがわかります。 一方で、7Bと比較的大きなモデルであるcyberagent/open-calm-7bは若干低めのF値となりました。 より性能を高めるためには、RoLAのrやその他のハイパラなど、もうすこしチューニングしてあげる必要があるのかもしれません。

ちなみに、rinna/japanese-gpt-neox-3.6b-instruction-sft-v2のF値97.75は、筆者の別実装、BERTによるテキスト分類チュートリアルにおける最高性能を達成したstudio-ousia/luke-japanese-large-liteのF値97.47よりも高い結果です。 もちろん、モデルのパラメータ数が9倍ほど違うので単純な比較対象にはなり得ませんが、テキスト分類の性能を追い求めたい場合には、BERTの代替としてLLM+LoRAを利用するのもよい選択肢になるかもしません。

次に、今回の実験で代表的な3つのモデルrinna/japanese-gpt-neox-3.6b-instruction-sft-v2, rinna/japanese-gpt-neox-3.6b, cyberagent/open-calm-7bについての、テンプレートごとの実験結果を以下の表に示します。

TemplateVal. F1F1
rinna/japanese-gpt-neox-3.6b-instruction-sft-v2297.2797.75
rinna/japanese-gpt-neox-3.6b-instruction-sft-v2197.1897.14
rinna/japanese-gpt-neox-3.6b-instruction-sft-v2097.0596.80
rinna/japanese-gpt-neox-3.6b197.1497.30
rinna/japanese-gpt-neox-3.6b296.9297.36
rinna/japanese-gpt-neox-3.6b096.6196.69
cyberagent/open-calm-7b197.2296.55
cyberagent/open-calm-7b097.0796.56
cyberagent/open-calm-7b296.8896.85

一般的に、LLMの推論能力はテンプレート(プロンプト)によって大きく左右されます。 一方で今回の実験は、zero/few-shot的な設定ではないので、ある程度テンプレートによる性能差を緩和できると予想されます。 しかし、結果から、テンプレートによって以前としてF値にある程度(F値にして1ポイント程度)の差が出ていることがわかります。 template_type=0は比較的複雑なテンプレートで、template_type=2は改行で連結しているだけのシンプルなテンプレートになりますが、意外とtemplate_type=2のような簡単なものの方が性能が高い傾向にあることが伺えます。 zero/few-shot設定ではプロンプトが非常に重要になりますが、微調整を行える場合には、プロンプトはできるだけシンプルに済ませた方がいいということなのかもしれません。

次に、モデルをrinna/japanese-gpt-neox-3.6btemplate_type2に固定した場合の、学習率ごとの性能を見てみます。

LRVal. F1AccuracyPrecisionRecallF1
5e-22.1812.911.4311.112.54
3e-22.1812.911.4311.112.54
1e-22.1812.911.4311.112.54
5e-324.7832.2036.3030.2728.21
3e-32.1812.911.4311.112.54
1e-396.9297.6997.5197.2797.36
5e-496.7798.2398.0297.8797.93
3e-496.7496.8896.4696.2196.30
1e-494.7997.0196.8596.7296.76
5e-594.2895.9295.7395.5095.58
3e-593.7494.0293.5093.6193.55
1e-578.9481.2580.2179.4379.62

表から、LoRAでの学習にはある程度大きな学習率が有効であるものの、その上限は1e-3くらいで、1e-2などの非常に大きな学習率を使うと、学習がうまくいかなくなってしまうことがわかります。 もう少し広範なモデルでの実験結果が欲しいところですが、LLM+LoRAで分類を行う場合は、5e-4くらいの学習率を初手で試すのが安牌ではないかなと思います。

さらに、モデルをrinna/japanese-gpt-neox-3.6btemplate_type2、LoRAのr32に固定した場合の、batch sizeごとの性能の違いをみてみます。

batch sizeLRVal. F1AccuracyPrecisionRecallF1
25e-497.1298.1098.0297.4897.70
161e-397.1297.8397.7797.3797.52
321e-396.9297.6997.5197.2797.36
645e-496.5797.5597.3997.3597.35
45e-497.0897.4297.3797.0197.15
83e-497.2097.2896.9996.8796.91

この表はF値について降順に並んでいます。 結果としては、batch sizeの違いによって性能差がある程度出そうな可能性がある、ということはいえそうですが、今回の実験では一つの乱数シード値で1度しか実験を行っていないため、明確な結論を出すのは難しそうな結果となりました。 一般にbatch sizeが小さい方が訓練に長い時間を要し、性能も不安定になる傾向があることから、とりあえずbatch sizeは16か32くらいにしておくのがいいかもしれません。

最後に、モデルをrinna/japanese-gpt-neox-3.6btemplate_type2に固定した場合の、LoRAのrごとの性能を見てみます。

LoRA rLRVal. F1AccuracyPrecisionRecallF1
85e-497.4597.1596.9796.7596.83
641e-397.2297.2896.9696.8596.89
161e-397.2097.6997.5997.2797.38
43e-497.1297.6997.6497.2497.40
321e-396.9297.6997.5197.2797.36

結果としては、開発セットでのF値とテストセットでのF値の間の相関があまりみられないような気がします。 LoRAのrは「大きいモデルほど小さくできる」値だと思われるので、数B程度の中規模以下のLLMでは32以上とかにしておくのが無難な気がしますが、もう少し実験してみたい結果になりました。

まとめ

本実装では、LLMをtraditionalなテキスト分類に用いる実験を行いました。 結果として、LoRAを用いた微調整を行うことで、ごく少数のパラメータを調整するのみで、かなり高い性能を達成することができ、「BERTの代替としてLLMを利用する」のも十分reasonableな選択肢と言えそうな結果となりました。 また、微調整を行う設定でも、依然としてテンプレートが性能に影響を及ぼすという傾向が見られました。 さらに、LoRAを利用した微調整を行う場合、学習率はかなり大きめの値に設定する必要があり、ランクrの値によっても性能に影響がありそうだということがわかりました。

参考文献

著者情報・引用

作者: Hayato Tsukagoshi
email: research.tsukagoshi.hayato@gmail.com

論文等で本実装を参照する場合は、以下をお使いください。

@misc{
  hayato-tsukagoshi-2023-llm-lora-classification,
  title = {{Text Classification with LLMs and LoRA}},
  author = {Hayato Tsukagoshi},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/hppRC/llm-lora-classification}},
  url = {https://github.com/hppRC/llm-lora-classification},
}