Home

Awesome

日本語LLMまとめ

[ English | Français | 日本語 ]

<p align="center"> <img src="./figures/parameter_size_overview.png" alt="日本語LLM・海外LLMのパラメータサイズの推移"> </p> <figcaption style="font-style: italic; font-size: 0.9em; color: #6b7280; text-align: center;">日本語LLM・海外LLMのパラメータ数の推移。日本語モデルの情報は本記事、海外モデルの情報は LifeArchitect.ai の <a href="https://lifearchitect.ai/models-table/" target="_blank" rel="noreferrer">Models table</a> を参照しています(ただし、図のスペース上一部のモデルは省略。また、海外モデルのパラメータ数は推測値を含む)。修正・追加等ありましたらお知らせ下さい。</figcaption>

この記事は、一般公開されている日本語LLM(日本語を中心に学習されたLLM)および日本語LLM評価ベンチマークに関する情報をまとめたものです。情報は、有志により収集されており、その一部は論文や公開されているリソースなどから引用しています。

::: warning 以下の点について、あらかじめご理解とご了承をお願いいたします

  1. 本記事の内容は、完全性や正確性を保証するものではありません。これらの情報は予告なく変更されることがあり、また最新の情報を常に提供できるとは限りません。
  2. 一部の情報は、推測や個々の利用者の解釈にもとづくものである場合があります。そのため、全ての読者にとって必ずしも正確であるとは限りません。
  3. 本記事に記載されているモデルの多くは、MIT や Apache-2.0 といったオープンソースライセンスが適用されています。しかしながら、一部のモデルには、非営利限定のライセンス(例:CC BY-NC-SA 4.0)や開発元特有のライセンスが適応されており、これらは必ずしもオープンソースとは言えない可能性がある点にご注意ください。
  4. 個人が開発したモデルに関する記述では、作成者の敬称は省略させていただいております。 :::

この記事の管理は GitHub で行っています。記事の間違いを発見した場合、あるいはモデルの追加提案を行いたい場合は、GitHub Issues 経由で報告していただけますと幸いです。

::: details 目次 [[toc]] :::

<a id="generative"></a>

テキスト生成に主に使うモデル

画像を含むテキスト生成モデルはこちら

<a id="full-scratch-models"></a>

フルスクラッチ事前学習モデル

<a id="generative-scratch-general"></a>

汎用

アーキテクチャ入出力で扱える<br>トークン数学習テキスト開発元ライセンス
Stockmark-100bLlama<br>(100b, 100b-instruct-v0.1)4,096事前学習: RedPajama, 日本語 Wikipedia, Japanese mC4, Japanese CommonCrawl, 日本語特許, Stockmark Web Corpus<br>(計 910B トークン)<br>Instruction Tuning (LoRA): ichikara-instructionストックマークMIT
Sarashina2Llama<br>(7b, 13b, 70b)7b, 13b: 4,096<br>70b: 8,192事前学習: Japanese Common Crawl, SlimPajama, StarCoder<br>(計 2.1T トークン)SB IntuitionsMIT
Sarashina1GPT-NeoX<br>(7b, 13b, 65b)2,048事前学習: Japanese Common Crawl<br>(計 1T トークン)SB IntuitionsMIT
Tanuki-8×8BTanuki (MoE) (47b)<br>(v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)4,096事前学習: 様々な Web 上のデータ, 合成データ(計 1.7T トークン)<br>SFT, DPO: 様々な合成データ 1松尾研LLM開発プロジェクトApache 2.0
CyberAgentLM3 (CALM3)Llama<br>(22b-chat)16,384不明<br>(計 2.0T トークン)サイバーエージェントApache 2.0
LLM-jp-13B v2.0Llama<br>(13b-v2.0, 13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0)4,096事前学習: llm-jp-corpus-v2<br>Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2LLM-jpApache 2.0
Fugaku-LLMGPT<br>(13B, 13B-instruct, 13B-instruct-gguf)2,048事前学習: 独自<br>Instruction Tuning: OASST1, Dolly Dataset, GSM8K東工大, 東北大, 富士通, 理研, 名大, サイバーエージェント, Kotoba TechnologiesFugaku-LLM Terms of Use
LLM-jp-13B v1.1GPT<br>(13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-dpo-lora-hh_rlhf_ja-v1.1)2,048Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, ichikara-instruction<br>DPO (LoRA): HH RLHFLLM-jpApache 2.0
LLM-jp-13BGPT<br>(1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0)2,048事前学習: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (計 300B トークン)<br>Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1LLM-jpApache 2.0
PLaMo-13BLlama2<br>(13b, 13b-instruct, 13b-instruct-nc)base: 4,096<br>instruct, instruct-nc: 8,192事前学習: C4, Project Gutenberg, RedPajama, 日本語 Wikipedia, Japanese mC4<br>(計 1.5T トークン)<br>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1, llm-japanese-datasetのwikinews subset (NCモデルでは商用利用不可の Alpaca Dataset も含めて学習)Preferred NetworksApache 2.0<br>(NC モデルは CC BY-NC 4.0)
Stockmark-13bLlama<br>(13b, 13b-instruct)2,048事前学習: 日本語 Wikipedia、Japanese CC-100、Japanese mC4、Japanese CommonCrawl、日本語特許、Stockmark Web Corpus<br>(計 220B トークン)<br>Instruction Tuning (LoRA): ichikara-instructionストックマークbaseモデル: MIT<br>instructモデル: CC BY-NC-SA 4.0
Weblab-10BGPT-NeoX<br>(10b, 10b-instruction-sft)2,048Japanese mC4 + The Pile(計 600B トークン)<br>*instruction-sft モデルは Alpaca Dataset, FLAN でファインチューニング東大 松尾研CC BY-NC 4.0
Tanuki-8BTanuki (8b)<br>(v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)4,096事前学習: 様々な Web 上のデータ, 合成データ(計 1.3T トークン)<br>SFT, DPO: 様々な合成データ 1松尾研LLM開発プロジェクトApache 2.0
Japanese StableLM AlphaGPT-NeoX<br>(base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2)2,048Wikipedia, Japanese CC-100, Japanese mC4, Japanese OSCAR, RedPajama<br>(+ 独自のデータセット)3<br>(計 750B トークン)<br>*instruct モデルでは Alpaca Dataset, Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetでファインチューニング<br>(v2では商用利用不可の Alpaca Dataset を除外)Stability AIbaseモデル: Apache 2.0<br>instruct モデル (v1): 独自のライセンス<br>instruct モデル (v2): Apache 2.0
CyberAgentLM2 (CALM2)Llama<br>(7b, 7b-chat, 7b-chat-dpo-experimental)base: 4,096<br>chat: 32,768一般公開されている日本語・英語のデータセット(詳細不明) (計 1.3T トークン)<br>*dpo モデルは Chatbot Arena Conversations JA (calm2) Dataset を用いて DPO で学習サイバーエージェントApache 2.0<br>(dpo モデルのみ CC BY 4.0)
OpenCALMGPT-NeoX<br>(small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b))2,048日本語 Wikipedia <br>+ Jpanese mC4<br>+ Japanese CC-100サイバーエージェントCC BY-SA 4.0
StormyGPT-NeoX<br>(7b(6.8b))2,048OpenCALM (6.8b) に対して<br>llm-japanese-dataset v0 のうち翻訳タスクを除いたデータで LoRAチューニング東大 和泉研CC BY-SA 4.0
rinna GPT <br> (英語やコードも含めて学習されたモデル)GPT-NeoX<br>(4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo)8kモデル: 8,192<br>他: 2,048Wikipedia, Japanese CC-100, Japanese C4, RedPajama, The Pile<br>(計 524B トークン)<br>*8k モデルでは 4,000トークンを超える長いトークン列でファインチューニング<br>*instruction-sft モデルでは HH RLHF、FLAN でファインチューニング<br>*instruction-ppo モデルでは HH RLHF で PPO ベースの強化学習rinnaMIT
japanese-large-lmGPT-NeoX<br>(1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft)2,048日本語 Wikipedia, Japanese CC-100, Japanese C4, Japanese OSCAR や独自データなど<br>(計 650GB)<br>*instruction-sft モデルでは OASST1 でファインチューニングLINEApache 2.0
rinna GPT <br> (日本語のみで学習されたモデル)GPT または GPT-NeoX<br>(xsmall, small, medium, 1b, neox-small, neox-3.6b, neox-3.6b-instruction-sft, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo)≤ 2,048日本語 Wikipedia <br> + Japanese CC-100 <br> (1b 以降のモデルでは<br>さらに Japanese mC4 を追加)<br>*instruction-sft, sft-v2 モデルでは HH RLHF、FLAN、SHP データセットでさらにファインチューニング<br>*instruction-ppo モデルでは HH RLHF でさらに PPO ベースの強化学習rinnaMIT
レトリバT5T5<br>(small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b))日本語 Wikipedia + Japanese mC4レトリバCC BY-SA 4.0
Spiral-RetNet-3b-baseRetNet<br>(3b)2,048Wikipedia, Japanese CC-100, CulturaXSpiral.AIMIT
kotomamba-2.8BMamba<br>(2.8B-v1.0)2,048日本語 Wikipedia, Swallow Corpus, SlimPajamaKotoba TechnologiesApache 2.0
ABEJA GPTGPT または GPT-NeoX<br>(large, neox-2.7b)日本語 Wikipedia <br> + Japanese CC-100 <br> + Japanese OSCARABEJAMIT
早大GPTGPT<br>(small, xl(1.5b))日本語 Wikipedia<br> + Japanese CC-100早大 河原研CC BY-SA 4.0
ストックマークGPTGPT-NeoX<br>(1.4b)日本語 Wikipedia (0.88B トークン)<br>+ Japanese CC-100 (10.5B トークン)<br>+ 独自のWebデータ (8.6B トークン)ストックマークMIT
イエローバックGPTGPT-NeoX<br>(1.3b)日本語 Wikipedia <br> + Japanese CC-100 <br> + Japanese OSCARイエローバックApache 2.0
colorfulscoop GPTGPT<br>(small)日本語 WikipediaColorful ScoopCC BY-SA 3.0
東工大GPTGPT<br>(medium, medium (逆方向)) 4日本語 Wikipedia + Japanese CC-100東工大 岡崎研CC BY-SA 4.0
京大GPTGPT<br>(small (文字レベル), medium (文字レベル), large (文字レベル))日本語 Wikipedia (約2,700万文 (3.2GB)) <br>+ Japanese CC-100 (約6億1,900万文 (85GB)) <br>+ Japanese OSCAR (約3億2,600万文 (54GB))京大 言語メディア研究室CC BY-SA 4.0
日本語BARTBART<br>(base, large)日本語 Wikipedia (約1,800万文)京大 言語メディア研究室CC BY-SA 4.0
Megagon Labs T5T5<br>(base)Japanese mC4 (87,425,304 ページ (782 GB))<br>+ Japanese wiki40b (828,236 記事 (2 GB))Megagon Labs <br> (リクルート)Apache 2.0

<a id="generative-scratch-domain-specific"></a>

ドメイン特化型

ドメインアーキテクチャ学習テキスト開発元ライセンス
日本語対話Transformer対話TransformerTwitter 上の日本語リプライのペアNTT独自のライセンス
日本語ニュースBARTビジネスBART (base)日本語ビジネスニュース記事(約2,100万記事 (2.9億文))ストックマークMIT
AcademicBART学術BART (base)CiNii の日本語論文愛媛大 人工知能研究室Apache 2.0

<a id="english-based-models"></a>

海外モデルに日本語で追加事前学習を行ったモデル(継続事前学習モデル)

<a id="generative-continual-general"></a>

汎用

ベースのLLM学習テキスト開発元ライセンス
cyberagent/Llama-3.1-70B-Japanese-Instruct-2407Llama 3.1 (70b)不明サイバーエージェントLlama 3.1 Community License
Llama 3 Swallow 70B<br>(70B-v0.1, 70B-Instruct-v0.1)Llama 3 (70b)事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath<br>Instruction Tuning: OASST1 5Swallow ProjectLlama 3 Community License
Llama 3 Youko 70B<br>(70b, 70b-instruct, 70b-gptq, 70b-instruct-gptq)Llama 3 (70b)事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット<br>(計 5B トークン)<br>Instruction Tuning: 独自のデータセット6rinnaLlama 3 Community License
Swallow 70B<br>(70b-hf, 70b-instruct-hf, 70b-instruct-v0.1, 70b-NVE-hf, 70b-NVE-instruct-hf)Llama 2 (70b)事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile<br>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1<br>*v0.1モデルでは OASST1, OASST2 を使用Swallow ProjectLlama 2 Community License
KARAKURI LM<br>(70b-v0.1, 70b-chat-v0.1)Llama 2 (70b)事前学習: mC4, CC100, OSCAR, RedPajama, 独自のデータセット<br>(計 16B トークン)<br>SteerLM: OASST2, 独自のデータセットカラクリLlama 2 Community License7
Japanese Stable LM Beta 70B<br>(base-beta-70b, instruct-beta-70b)Llama 2 (70b)事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)<br>(計 100B トークン)<br>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1Stability AILlama 2 Community License
Swallow-MX 8x7B<br>(8x7b-NVE-v0.1)Mixtral-8x7B-Instruct-v0.1 (46.7b)事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The VaultSwallow ProjectApache 2.0
KARAKURI LM 8x7B Instruct v0.1<br>(8x7b-instruct-v0.1)Mixtral-8x7B-Instruct-v0.1 (46.7b)Swallow-MX 8x7B に対して以下のデータセットで学習: Dolly Dataset, OASST2, HelpSteer, glaive-code-assistant-v3, glaive-function-calling-v2, synthetic_text_to_sql, MetaMathQA, orca-math-word-problems-200k, rag-dataset-12000, rag-hallucination-dataset-1000, 独自のデータセットカラクリApache 2.0 (?)8
KARAKURI LM 8x7B Chat v0.1<br>(8x7b-chat-v0.1)Mixtral-8x7B-Instruct-v0.1 (46.7b)Swallow-MX 8x7B に対して<br>SteerLM: OASST2, HelpSteer, 独自のデータセットカラクリApache 2.0
ABEJA-Mixtral-8x7B-japanese<br>(8x7B-v0.1-japanese, 8x7B-Instruct-v0.1-japanese, 8x7B-Instruct-v0.1-japanese-alpha, 8x7B-Instruct-v0.1-japanese-alpha-merged)Mixtral-8x7B-Instruct-v0.1 (46.7b)<br>*Instructが名前に付いていないモデルのみ Mixtral-8x7B-v0.1 がベース事前学習: Japanese CC, Redpajama, 独自<br>(計 450B トークン)ABEJAApache 2.0
Nekomata 14B<br>(14b, 14b-instruction, 14b-gguf, 14b-instruction-gguf)Qwen (14b)事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット<br>(計 66B トークン)<br>Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部rinnaTongyi Qianwen LICENSE
Swallow 13B<br>(13b-hf, 13b-instruct-hf, 13b-instruct-v0.1, 13b-NVE-hf)Llama 2 (13b)事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile<br>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1<br>*v0.1モデルでは OASST1, OASST2 を使用Swallow ProjectLlama 2 Community License
LEIA-Swallow-13B<br>(13b)Llama 2 (13b)Swallow 13B に対して LEIA で追加学習個人 (山田育矢, 李凌寒)Llama 2 Community License
ELYZA-japanese-Llama-2-13b<br>(13b, 13b-instruct, 13b-fast, 13b-fast-instruct)Llama 2 (13b)事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど<br>(計 18B トークン)<br>Instruction Tuning: 独自のデータセットELYZALlama 2 Community License
Llama 3 Swallow 8B<br>(8B-v0.1, 8B-Instruct-v0.1)Llama 3 (8b)事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath<br>Instruction Tuning: OASST1 5Swallow ProjectLlama 3 Community License
Llama 3 Youko 8B<br>(8b, 8b-instruct, 8b-gptq, 8b-instruct-gptq)Llama 3 (8b)事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット<br>(計 22B トークン)<br>Instruction Tuning6: Aya Dataset (Japanese subset), FLAN, Dolly Dataset, HH RLHF, OASST1, OASST2, MetaMathQA, CodeAlpaca Dataset, 独自のデータセット<br>DPO: HelpSteer, HelpSteer2, 独自のデータセットrinnaLlama 3 Community License
Llama 3 ELYZA JP 8B<br>(8B, 8B-GGUF, 8B-AWQ)Llama 3 (8b)不明ELYZALlama 3 Community License
Llama 3 neoAI 8B Chat v0.1<br>(8B-Chat-v0.1)Llama 3 (8b)不明neoAILlama 3 Community License
Swallow 7B<br>(7b-hf, 7b-instruct-hf, 7b-instruct-v0.1, 7b-NVE-hf, 7b-NVE-instruct-hf, 7b-plus-hf)Llama 2 (7b)事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile<br>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1<br>*v0.1モデルでは OASST1, OASST2 を使用Swallow ProjectLlama 2 Community License
LEIA-Swallow-7B<br>(7b)Llama 2 (7b)Swallow 7B に対して LEIA で追加学習個人 (山田育矢, 李凌寒)Llama 2 Community License
ELYZA-japanese-Llama-2-7b<br> (7b, 7b-instruct, 7b-fast, 7b-fast-instruct)Llama 2 (7b)事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど<br>(計 18B トークン)<br>Instruction Tuning: 独自のデータセットELYZALlama 2 Community License
Youri 7B<br>(7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq)Llama 2 (7b)事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット<br>(計 40B トークン)<br>Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部rinnaLlama 2 Community License
houou-7b<br>(instruction-7b-v1, instruction-7b-v2, instruction-7b-v3)Llama 2 (7b)Youri 7B (base) に対して Instruction Tuning: ichikara-instructionマネーフォワードLlama 2 Community License
Japanese Stable LM Beta 7B<br>(base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b)Llama 2 (7b)事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)<br>(計 100B トークン)<br>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1Stability AILlama 2 Community License
SambaLingo-Japanese<br>(Base, Chat)Llama 2 (7b)事前学習: CulturaX<br>Instruction Tuning: ultrachat_200k<br>DPO: ultrafeedback, cai-conversation-harmlessSambaNova SystemsLlama 2 Community License (?)8
blue-lizard<br>(blue-lizard)Llama 2 (7b)不明DeepreneurLlama 2 Community License
Swallow-MS 7B<br>(7b-v0.1, 7b-instruct-v0.1)Mistral-7B-v0.1 (7b)事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile<br>Instruction Tuning: Dolly Dataset, OASST1Swallow ProjectApache 2.0
RakutenAI-7B<br>(7B, 7B-instruct, 7B-chat)Mistral-7B-v0.1 (7b)事前学習: 不明<br>Instruction Tuning: Dolly Dataset, OASST1, (jasterと同様に)言語理解データセットの訓練データを Instruction Tuning 用に変換したもの, 独自のデータセット楽天Apache 2.0
Japanese Stable LM Gamma 7B<br>(base-gamma-7b, instruct-gamma-7b)Mistral-7B-v0.1 (7b)事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)<br>(計 100B トークン)<br>Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetStability AIApache 2.0
ChatNTQ JA 7B<br>(7b-v1.0)Mistral-7B-v0.1 (7b)Japanese Stable LM Gamma 7B (base) に対して独自のデータセットで Instruction TuningNTQ SolutionApache 2.0
Shisa Gamma 7B<br>(7b-v1)Mistral-7B-v0.1 (7b)Japanese Stable LM Gamma 7B (base) に対して ultra-orca-boros-en-ja で Instruction TuningAUGMXNTApache 2.0 (?)8
Shisa 7B<br>(base-7b-v1, 7b-v1)Mistral-7B-v0.1 (7b)事前学習: shisa-pretrain-en-ja-v1 (8B トークン)<br>Instruction Tuning & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1AUGMXNTApache 2.0 (?)8
Karasu<br>(7B, 7B-chat, 7B-chat-plus, 7B-chat-plus-unleashed)Mistral-7B-v0.1 (7b)Shisa 7B (base) に対して以下のデータセットで追加事前学習: 青空文庫, 日本の法律・判例, 日本語 Wikipedia, CulturaX の日本ドメインのデータ, UltraChat 200k (計 7B トークン)<br>Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセットLightblueApache 2.0 (?)8
Nekomata 7B<br>(7b, 7b-instruction, 7b-gguf, 7b-instruction-gguf)Qwen (7b)事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット<br>(計 66B トークン)<br>Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部rinnaTongyi Qianwen LICENSE
lightblue/japanese-mpt-7bMPT (7b)Japanese mC4LightblueApache 2.0
Japanese Stable LM 3B-4E1T<br>(3b-4e1t-base, 3b-4e1t-instruct)StableLM-3B-4E1T (3b)事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)<br>(計 100B トークン)<br>Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetStability AIApache 2.0
kotomamba-2.8B-CLmamba-2.8b-slimpj<br>(2.8b)日本語 Wikipedia, Swallow Corpus, SlimPajamaKotoba TechnologiesApache 2.0
Japanese Stable LM 2 1.6B<br>(base, instruct)Stable LM 2 1.6B (1.6b)事前学習: Wikipedia, CulturaX<br>Instruction Tuning: jaster, ichikara-instruction, alpaca-gpt4-japanese, ultra-orca-boros-en-ja-v1Stability AISTABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE
karasu-1.1BTinyLlama (1.1b)事前学習: Japanese OSCAR, Japanese mC4<br>(計 3B トークン)LightblueApache 2.0

<a id="generative-continual-domain-specific"></a>

ドメイン特化型

ドメインベースのLLM開発元ライセンス
Llama3-Preferred-MedSwallow-70B<br>(70B)医療Llama 3 (70b)Preferred NetworksLlama 3 Community License
AIgroup-CVM-utokyohospital/MedSwallow-70b医療Llama 2 (70b)東京大学医学部附属病院 循環器内科 AIグループCC BY-NC-SA 4.0
nekomata-14b-pfn-qfin<br>(qfin, qfin-inst-merge)金融Qwen (14b)Preferred NetworksTongyi Qianwen LICENSE
Watashiha-Llama-2-13B-Ogiri-sft<br>(sft, sft-neuron)大喜利Llama 2 (13b)わたしはLlama 2 Community License
ELYZA-japanese-CodeLlama-7b<br>(7b, 7b-instruct)コーディングCode Llama<br>(7b)ELYZALlama 2 Community License
AIBunCho/japanese-novel-gpt-j-6b物語生成GPT-J (6b)個人 (大曽根宏幸)CreativeML OpenRAIL-M License
NovelAI/genji-jp物語生成GPT-J (6b)NovelAI

<a id="instruction-only-models"></a>

海外モデルに日本語で指示チューニング (Instruction Tuning) のみ行ったモデル

<a id="generative-instruction-only-general"></a>

汎用

ベースのLLM学習テキスト開発元ライセンス
ao-Karasu<br>(72B)Qwen1.5 (72b)ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 日本語の公開技術ブログ, ニュース記事, QAサイトの回答, 独自のデータセットLightblueTongyi Qianwen LICENSE (?)8
AXCXEPT/Llama-3.1-70B-EZO-1.1-itLlama 3.1 (70b)AxcxeptLlama 3.1 Community License
Llama 3 shisa-v1-llama3-70b<br>(70b)Llama 3 (70b)ultra-orca-boros-en-ja-v1Shisa.AILlama 3 Community License (?)8
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japaneseLlama 2 (70b)東京大学医学部附属病院 循環器内科 AIグループLlama 2 Community License
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1Llama 2 (70b)同志社大学 メディア情報学研究室
Qarasu<br>(14B-chat-plus-unleashed)Qwen (14b)ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセットLightblueTongyi Qianwen LICENSE (?)8
Sparticle/llama-2-13b-chat-japanese-loraLlama 2 (13b)Sparticle
izumi-lab/llama-13b-japanese-lora-v0-1epLlama (13b)東大 和泉研
AXCXEPT/EZO-Common-9B-gemma-2-itGemma 2 (9b)AxcxeptGemma Terms of Use
AXCXEPT/EZO-Humanities-9B-gemma-2-itGemma 2 (9b)AxcxeptGemma Terms of Use
AXCXEPT/Llama-3.1-8B-EZO-1.1-itLlama 3.1 (8b)AxcxeptLlama 3.1 Community License
Llama 3 Suzume 8B<br>(8B-japanese, 8B-japanese-gguf)Llama 3 (8b)megagonlabs/instruction_ja, ShareGPT, 独自のデータセットLightblueLlama 3 Community License (?)8
Llama 3 shisa-v1-llama3-8b<br>(8b)Llama 3 (8b)ultra-orca-boros-en-ja-v1Shisa.AILlama 3 Community License (?)8
AXCXEPT/Llama-3-EZO-8b-Common-itLlama 3 (8b)AxcxeptLlama 3 Community License
ganchengguang/Yoko-7B-Japanese-v1Llama 2 (7b)横浜国大 森研
Sparticle/llama-2-7b-chat-japanese-loraLlama 2 (7b)Sparticle
izumi-lab/llama-7b-japanese-lora-v0-5epLlama (7b)東大 和泉研
lightblue/jodMistral-7B-SlimOrca (7b)LightblueApache 2.0
NTQAI/chatntq-7b-jpntunedRWKV-4 World (7b)NTQ Solution
AXCXEPT/EZO-Common-T2-2B-gemma-2-itGemma 2 (2b)AxcxeptGemma Terms of Use

<a id="generative-instruction-only-domain-specific"></a>

ドメイン特化型

ドメインベースのLLM開発元ライセンス
JMedLoRA<br>(llama2-jmedlora-6.89ep)医療Llama 2 (70b)東京大学医学部附属病院 循環器内科 AIグループCC BY-NC 4.0

<a id="merged-models"></a>

複数のLLMをマージして作成されたモデル

マージ元のLLM(太字は日本語LLM)開発元ライセンス
EQUES/MedLLama3-JP-v2Llama 3 Swallow 8B (Instruct), OpenBioLLM-8B, MMed-Llama 3 8B, Llama 3 ELYZA JP 8BEQUESLlama 3 Community License
EvoLLM-JP-A<br>(v1-7B)Shisa Gamma 7B (v1), Arithmo2 Mistral 7B, Abel 7B 002Sakana AIApache 2.0
EvoLLM-JP<br>(v1-7B, v1-10B)Shisa Gamma 7B (v1), WizardMath-7B-V1.1, Abel 7B 002Sakana AIMICROSOFT RESEARCH LICENSE

<a id="api-based-models"></a>

APIとして提供されているモデル

入出力で扱える<br>トークン数開発元プラットフォーム
Solar mini chat ja<br>(solar-1-mini-chat-ja)32,768Upstage独自
AIのべりすと2,400 ~ 8,192Bit192独自
LHTM-OPTオルツAWS Marketplace

<a id="autoencoding"></a>

入力テキストの処理に主に使うモデル

<a id="autoencoding-general"></a>

汎用

アーキテクチャ学習テキスト開発元ライセンスHuggingFace ですぐ使える? 9
京大BERTBERT (base, large)日本語 Wikipedia (約1,800万文)京大 言語メディア研究室Apache 2.0
東北大BERTBERT (base, large)base (v1):<br>日本語 Wikipedia 約1,700万文 (2.6GB)<br>base (v2) & large:<br>日本語 Wikipedia 約3,000万文 (4.0GB)<br>base (v3) & large (v2):<br>日本語 Wikipedia 約3,400万文 (4.9GB)<br>+ 日本語 CC-100 約3億9,200万文 (74.3GB)東北大<br>自然言語処理研究グループbase (v1, v2) & large: CC BY-SA 3.0<br>base (v3) & large (v2): Apache 2.0◯ (base (v1), base (v1, 文字レベル), base (v2), base (v2, 文字レベル), large, large (文字レベル), base (v3), base (v3, 文字レベル), large (v2), large (v2, 文字レベル))
NICT BERTBERT (base)日本語 WikipediaNICTCC BY 4.0
Laboro BERTBERT (base, large)日本語 Web コーパス <br> (ニュースサイトやブログなど<br>計4,307のWebサイト、2,605,280ページ (12GB))Laboro.AICC BY-NC 4.0
colorfulscoop BERTBERT (base)日本語 WikipediaColorful ScoopCC BY-SA 3.0
東大BERTBERT (small)日本語 Wikipedia (約2,000万文 (2.9GB))東大 和泉研CC BY-SA 4.0
chiTra (Sudachi Transformers)BERT (base)国語研日本語ウェブコーパス (NWJC) (148GB)NINJAL, ワークス徳島人工知能NLP研Apache 2.0
ACCMS BERTBERT (base)日本語 Wikipedia (3.3GB)京大 ACCMSCC BY-SA 4.0
日立BERTBERT (base)日本語 Wikipedia <br>+ Japanese CC-100日立製作所CC BY-NC-SA 4.0 10
RetrievaBERTBERT 11Japanese CommonCrawl, RefinedWeb, Chinese Wikipedia, Korean Wikipedia, The StackレトリバApache 2.0
Bandai Namco DistilBERTDistilBERT- (東北大BERT(base) を親モデルとして知識蒸留)Bandai Namco ResearchMIT
Laboro DistilBERTDistilBERT- (Laboro BERT(base) を親モデルとして知識蒸留)Laboro.AICC BY-NC 4.0
LINE DistilBERTDistilBERT- (LINE社内のBERTを親モデルとして知識蒸留)LINEApache 2.0
rinna RoBERTaRoBERTa (base)日本語 Wikipedia <br>+ Japanese CC-100rinnaMIT
早大RoBERTaRoBERTa (base, large)日本語 Wikipedia <br>+ Japanese CC-100早大 河原研CC BY-SA 4.0◯ (base, large, large (seq512)) 12
インフォマティクスRoBERTaRoBERTa (base)日本語 Wikipedia<br> + Web 上の記事 (計25GB)インフォマティクスApache 2.0
京大RoBERTaRoBERTa (base, large)日本語 Wikipedia <br>+ Japanese CC-100京大 言語メディア研究室CC BY-SA 4.0◯ (base (文字レベル), large (文字レベル))
横浜国大RoBERTaRoBERTa (base)日本語 Wikipedia (3.45GB)横浜国大 森研Apache 2.0
Megagon Labs RoBERTaRoBERTa (base) 13Japanese mC4 (約2億文)Megagon Labs <br> (リクルート)MIT
ACCMS RoBERTaRoBERTa (base)日本語 Wikipedia (3.3GB) + Japanese CC-100 (70GB)京大 ACCMSCC BY-SA 4.0
シナモンELECTRAELECTRA (small)日本語 WikipediaシナモンApache 2.0
Megagon Labs ELECTRAELECTRA (base)Japanese mC4 (約2億文)Megagon Labs <br> (リクルート)MIT
東大ELECTRAELECTRA (small, base)日本語 Wikipedia (約2,000万文 (2.9GB))東大 和泉研CC BY-SA 4.0◯ (small, base)
日本語RoFormerRoFormer (base)日本語 Wikipedia (3.45GB)横浜国大 森研Apache 2.0
日本語LUKELUKE (base, large)日本語 WikipediaStudio OusiaApache 2.0◯ (base, large)
京大DeBERTaV2DeBERTaV2 (tiny, base, large)日本語 Wikipedia <br> + Japanese CC-100 <br> + Japanese OSCAR<br>(計171GB)京大 言語メディア研究室CC BY-SA 4.0◯ (tiny, tiny (文字レベル), base, large)
京大DeBERTaV3DeBERTaV3 (base)llm-jp-corpus京大 言語メディア研究室Apache 2.0
東大DeBERTaV2DeBERTaV2 (small, base)日本語 Wikipedia, 日本語 Wikinews, Japanese CC-100, Japanese mC4, Japanese OSCAR東大 和泉研CC BY-SA 4.0◯ (small, base)
GLOBIS DeBERTaV3DeBERTaV3 (xsmall, base, large)Wikipedia, WikiBooks, 青空文庫, Japanese CC-100, Japanese mC4, Japanese OSCARグロービスCC BY-SA 4.0◯ (xsmall, base, large)
日本語BigBirdBigBird (base)日本語 Wikipedia <br> + Japanese CC-100 <br> + Japanese OSCAR早大 河原研CC BY-SA 4.0
日本語LayoutLMLayoutLM (base)東北大BERT (base, v2) で重みを初期化した上で、日本語 Wikipedia の文章とレイアウトで事前学習日本総合研究所CC BY-SA 3.0

<a id="autoencoding-domain-specific"></a>

ドメイン特化型

ドメインアーキテクチャ学習テキスト開発元ライセンスHuggingFace ですぐ使える?
日本語ニュースBERTビジネスBERT (base)日本語ビジネスニュース記事(300万記事)ストックマークCC BY 4.0
日本語ニュースXLNetビジネスXLNet (base)日本語ビジネスニュース記事(300万記事)ストックマーク※ 非公式の HuggingFace 向けに変換されたモデルが公開されている
日本語ニュースALBERTビジネスALBERT (base)日本語ビジネスニュース記事(300万記事)ストックマーク
日本語ブログELECTRA口語ELECTRA (small)日本語ブログコーパス(3億5,400万文)北見工大 桝井・プタシンスキ研CC BY-SA 4.0
日本語話し言葉BERT話し言葉BERT (base)東北大BERTに対して日本語話し言葉コーパス(CSJ)を用いて追加学習<br>(DAPTモデルでは国会議事録データも使用)レトリバApache 2.0
日本語金融BERT金融BERT (small, base) 14日本語 Wikipedia<br> + 日本語金融コーパス (約2,700万文 (5.2GB))東大 和泉研CC BY-SA 4.0◯ (small, base)
日本語金融ELECTRA金融ELECTRA (small)日本語 Wikipedia (約2,000万文 (2.9GB)) <br> + 日本語金融コーパス (約2,700万文 (5.2GB))東大 和泉研CC BY-SA 4.0
UTH-BERT医療BERT (base)日本語診療記録(約1億2,000万行)東大病院 <br>医療AI開発学講座CC BY-NC-SA 4.0
medBERTjp医療BERT (base)日本語 Wikipedia <br> + 日本語医療コーパス(『今日の診療プレミアム』Web版)阪大病院 <br> 医療情報学研究室CC BY-NC-SA 4.0
JMedRoBERTa医療RoBERTa (base)日本語医学論文 (約1,100万文 (1.8GB))東大 相澤研CC BY-NC-SA 4.0◯ (万病WordPiece, SentencePiece) 15
AcademicRoBERTa学術RoBERTa (base)CiNii の日本語論文 (約628万文)愛媛大 人工知能研究室Apache 2.0
みんぱくBERT文化財BERT (base)東北大BERTに対して国立民族学博物館の文化財データで追加学習兵庫県立大学 大島研MIT◯ (minpaku-v1, minpaku-v3, minpaku-v3-no-additional-token)
local-politics-BERT政治BERT (base)Wikipedia, 国会会議録, 地方議会会議録地方議会会議録コーパスプロジェクトCC BY-SA 4.0◯ (SC-min, SC-minwiki, SC-2M-wiki, SC-2M-min, SC-2M-minwiki, FP-min, FP-minwiki) 16

<a id="embeddings"></a>

埋め込み (Embeddings) 作成に特化したモデル

アーキテクチャ開発元ライセンス
JaColBERTv2.5<br>(JaColBERTv2.4, JaColBERTv2.5)ColBERTv2Answer.AIMIT
JaColBERTv2<br>(JaColBERTv2)ColBERTv2個人 (Benjamin Clavié)MIT
JaColBERT<br>(JaColBERT)ColBERTv2個人 (Benjamin Clavié)MIT
Japanese SimCSE<br>(cl-nagoya/unsup-simcse-ja-base, cl-nagoya/unsup-simcse-ja-large, cl-nagoya/sup-simcse-ja-base, cl-nagoya/sup-simcse-ja-large)SimCSE名大 武田・笹野研CC BY-SA 4.0
GLuCoSE<br>(pkshatech/GLuCoSE-base-ja)LUKEベースの文埋め込みモデル<br>(GLuCoSE)PKSHA TechnologyApache 2.0
colorfulscoop/sbert-base-jaSentence-BERTColorful ScoopCC BY-SA 4.0
MU-Kindai/SBERT-JSNLI-base<br>MU-Kindai/SBERT-JSNLI-largeSentence-BERT近畿大学 (研究室不明)
MU-Kindai/Japanese-SimCSE-BERT-base-unsup<br>MU-Kindai/Japanese-SimCSE-BERT-large-unsup<br>MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup<br>MU-Kindai/Japanese-SimCSE-BERT-base-sup<br>MU-Kindai/Japanese-SimCSE-BERT-large-supSimCSE近畿大学 (研究室不明)MIT
pkshatech/simcse-ja-bert-base-clcmlpSimCSEPKSHA TechnologyCC BY-SA 4.0
MU-Kindai/Japanese-MixCSE-BERT-base<br>MU-Kindai/Japanese-MixCSE-BERT-largeMixCSE近畿大学 (研究室不明)MIT
MU-Kindai/Japanese-DiffCSE-BERT-baseDiffCSE近畿大学 (研究室不明)MIT
bclavie/fio-base-japanese-v0.1個人 (Benjamin Clavié)
cl-nagoya/shioriha-large-pt名大 武田・笹野研

<a id="multimodal"></a>

視覚言語モデル (Vision-Language Models)

<a id="multimodal-text-generation"></a>

画像+テキストからのテキスト生成

<a id="multimodal-general"></a>

汎用

アーキテクチャ / ベースのVLM学習画像/テキスト開発元ライセンス
AXCXEPT/EZO-InternVL2-26BInternVL2- AxcxeptMIT
llava-calm2-siglip<br>(llava-calm2-siglip)LLaVA-1.5MS-COCO と VisualGenome から生成された対話データサイバーエージェントApache 2.0
Llama-3-EvoVLM-JP-v2<br>(v2)-- (Mantis-8B-SigLIP-Llama-3、Llama-3-ELYZA-JP-8B、Bunny-v1.1-Llama-3-8B-V をマージ)Sakana AILlama 3 Community License
AXCXEPT/Llama-3-EZO-VLM-1Llama-3-EvoVLM-JP-v2-AxcxeptLlama 3 Community License
EvoVLM-JP<br>(v1-7B)-- (Shisa Gamma 7B (v1) と LLaVA-1.6-Mistral-7B をマージ)Sakana AIApache 2.0
Heron<br>(blip-ja-stablelm-base-7b-v0, blip-ja-stablelm-base-7b-v1, blip-ja-stablelm-base-7b-v1-llava-620k, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0, git-ja-stablelm-base-7b-v1)BLIP-2 または GITv1: LLaVA-Instruct-150K-JA または LLaVA-Instruct-620K-JA<br>v0: LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA datasetTuringCC BY-NC 4.0
Japanese Stable VLM<br>(japanese-stable-vlm)LLaVA-1.5Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA datasetStability AISTABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE
Japanese InstructBLIP Alpha<br>(japanese-instructblip-alpha)InstructBLIPJapanese CC12M, STAIR Captions, Japanese Visual Genome VQA datasetStability AIJAPANESE STABLELM RESEARCH LICENSE
rinna MiniGPT-4<br>(bilingual-gpt-neox-4b-minigpt4)MiniGPT-4CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA datasetrinnaMIT

<a id="multimodal-domain-specific"></a>

ドメイン特化型

アーキテクチャドメイン開発元ライセンス
watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlmLLaVA大喜利わたしはLlama 2 Community License

<a id="multimodal-text-to-image"></a>

テキストからの画像生成

<a id="multimodal-text-to-image-general"></a>

汎用

アーキテクチャ学習画像/テキスト開発元ライセンス
EvoSDXL-JP<br>(v1)Stable Diffusion- (Japanese Stable Diffusion XL を含む複数の画像生成モデルをマージ)Sakana AIApache 2.017
Japanese Stable Diffusion XL<br>(japanese-stable-diffusion-xl)Stable Diffusion不明Stability AISTABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE
東北大Stable Diffusion<br>(base, refiner)Stable DiffusionWMT2023 Shared Task の日英対訳コーパス、laion2B-multi のキャプション約 1,300 万件東北大<br>自然言語処理研究グループCreativeML OpenRAIL-M License
rinna Stable Diffusion<br>(japanese-stable-diffusion)Stable DiffusionLAION-5B データセットのうちキャプションが日本語のもの(画像約 1 億枚)rinnaCreativeML OpenRAIL-M License

<a id="multimodal-text-to-image-domain-specific"></a>

ドメイン特化型

アーキテクチャドメイン開発元ライセンス
Evo-Nishikie<br>(v1)Stable Diffusion (ControlNet)浮世絵Sakana AIApache 2.017
Evo-Ukiyoe<br>(v1)Stable Diffusion浮世絵Sakana AIApache 2.017

<a id="multimodal-others"></a>

その他

アーキテクチャ学習画像/テキスト開発元ライセンス
LINEヤフーCLIP<br>(clip-japanese-base)CLIPCommonCrawl, CC12M, YFCC100MLINEヤフーApache 2.0
リクルートCLIP<br>(japanese-clip-vit-b-32-roberta-base)CLIPlaion2B-multi のキャプション約1億2000万件リクルートCC BY-4.0
Japanese Stable CLIP<br>(japanese-stable-clip-vit-l-16)SigLIPCC12M のキャプションを日本語に翻訳したもの、STAIR CaptionsStability AISTABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE
rinna CLIP<br>(japanese-clip-vit-b-16)CLIPCC12M のキャプションを日本語に翻訳したものrinnaApache 2.0
rinna CLOOB<br>(japanese-cloob-vit-b-16)CLOOBCC12M のキャプションを日本語に翻訳したものrinnaApache 2.0
博報堂テクノロジーズCLIP<br>(base, deeper, wider)CLIPlaion2B-multi のキャプション約1億2000万件博報堂テクノロジーズCC BY-NC-SA 4.0

<a id="speech"></a>

音声言語モデル (Speech-Language Models)

<a id="speech-asr"></a>

音声認識

アーキテクチャ学習コーパス開発元ライセンス
Kotoba-Whisper<br>(v1.0, v1.0-ggml, v1.0-faster, v1.1)Distil-WhisperReazonSpeechKotoba TechnologiesApache 2.0
Nue ASR<br>(nue-asr)Nue ASR<br>(HuBERT + LLM)ReazonSpeechrinnaApache 2.0
ReazonSpeech<br>(espnet-v1, espnet-next, espnet-v2, nemo-v2)ESPnet (Conformer-Transducer) または NeMo (FastConformer-RNNT)ReazonSpeechレアゾン・ホールディングスApache 2.0

<a id="speech-others"></a>

その他

アーキテクチャ学習コーパス開発元ライセンス
Kotoba-Speech<br>(v0.1)Transformer不明Kotoba TechnologiesApache 2.0
東大HuBERT<br>(base-jtube)HuBERTJTubeSpeech東大 猿渡・高道研MIT
rinna HuBERT<br>(base, large)HuBERTReazonSpeechrinnaApache 2.0

<a id="benchmark-suites"></a>

日本語LLM評価ベンチマーク/データセットまとめ

<a id="hybrid-benchmark-suites"></a>

複合型ベンチマーク

説明開発元
Nejumi LLMリーダーボード3LLM の日本語能力を言語理解能力、応用能力、アライメント(制御性、安全性を含む)の 3 つの観点で評価している。詳しくはこちらの記事を参照Weights & Biases
日本語LLM評価様々な LLM を日本語理解・生成タスク、日本語マルチターン対話タスク、英語理解・生成タスクの 3 種類から総合的に評価している。また、既存の LLM 評価ツールを統合・改修した評価スクリプトである swallow-evaluation を合わせて公開している。Swallow Project

<a id="basic-benchmark-suites"></a>

基礎的な自然言語理解 (NLU) を中心に測定するベンチマーク/データセット

説明開発元
<a id="llm-jp-eval"></a> llm-jp-eval複数のデータセットを横断して日本語 LLM を自動評価するツールである。<br>対応している全データセット一覧はこちらから確認できる(この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている)。<br>評価結果は llm-jp-eval リーダーボード にまとめられている。LLM-jp
JP Language Model Evaluation HarnessStability AI による EleutherAI/lm-evaluation-harness のフォーク。複数のデータセットを横断して日本語 LLM を自動評価するツールである。<br>対応している全データセット一覧はこちらから確認できる(この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている)。<br>rinna による詳細な評価結果まとめがある: [rinna] Benchmark of Stability-AI/lm-evaluation-harnessStability AI
JGLUEGLUE ベンチマークの日本語版として構築されたベンチマーク。MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, JCommonsenseQA の 6 つのタスクを含む(JCoLA は東大大関研により作成)。各タスクの詳細はこちらこちらを参照早大 河原研, ヤフー
JMMLUMMLU ベンチマークの日本語版として構築されたベンチマーク。自然科学・人文科学・社会科学の幅広い学術領域から 4 択問題を構成している。元の MMLU を翻訳しただけでなく、日本独自の文化的背景に基づく問題(日本問題)を新たに追加しているのが特徴である。早大 河原研
日本語 Open LLM LeaderboardHuggingface の Open LLM Leaderboard と同様の検証を日本語 LLM に対して行ったもの。日本語 LLM の英語タスクにおける性能を確認できる。LLM-jp

<a id="open-ended-benchmark-suites"></a>

人間らしい応答の生成能力を中心に測定するベンチマーク/データセット

説明開発元
<a id="jp-mt-bench"></a> Japanese MT-benchマルチターン会話能力を問う MT-bench の日本語版。Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities の 8 つのカテゴリから 10 問ずつ、計 80 問が収録されている。なお、日本語版作成の際には、日本の文化に合うように質問内容に一部修正が加えられている。<br>GPT-4 による 10 段階の絶対評価を行うスクリプトも含まれている。Stability AI
<a id="rakuda-benchmark"></a> Rakuda Benchmark日本の地理、歴史、政治、社会に関する40問の自由質問に対してモデルに出力を行わせる。GPT-4 が同じ質問に対する2つのモデルの出力を比べ、どちらの答えが優れているかを判断することにより、モデルのランク付けを行う。YuzuAI
<a id="elyza-tasks"></a> ELYZA-tasks-100複雑な指示・タスクを含む100件の日本語データで、全てのデータに対して評価観点がアノテーションされている。<br>要約を修正し修正箇所を説明するタスク、具体的なエピソードから抽象的な教訓を述べるタスク、ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク、場合分けを必要とする複雑な算数のタスク、未知の言語からパターンを抽出し日本語訳する高度な推論を必要とするタスク、複数の指示を踏まえた上でyoutubeの対話を生成するタスク、架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスクなどが含まれている。ELYZA
Japanese Vicuna QA BenchmarkMT-Bench の前身である vicuna-blog-eval の日本語版。一般、知識、ロールプレイ、常識、フェルミ推定、反実仮想、コーディング、数学、ライティングに関する 80 問の質問を収録している。また、GPT-4 による自動評価(勝率計算)のスクリプトも含まれている。リーダーボードはこちら京大 言語メディア研究室
<a id="tengu-bench"></a> Tengu-Bench様々なカテゴリから成る 120 問の自由質問が収録されている。質問のカテゴリは以下の通り: 表の読み取り、論理パズル、アイデア生成、Function calling、長い文書要約(千トークン以上)、会話要約、長い文書のClosed QA(千トークン以上)、敬語、プロジェクト作成、数学、翻訳、抽出、倫理的制御、コスト見積、日本、雑談、ダジャレ、フォーマット、建設、ビジネス、法律判断、政治、架空の質問Lightblue
ShaberiJapanese MT-benchRakuda BenchmarkELYZA-tasks-100Tengu-Bench の評価をまとめて行うことができるフレームワーク。なお、Shisa.AI によるフォークも存在するLightblue

<a id="domain-specific-benchmark-suites"></a>

特定ドメインの性能を測定するベンチマーク/データセット

説明開発元
Japanese Language Model Financial Evaluation Harness金融分野における日本語 LLM のベンチマーク。金融分野における感情分析タスク(chabsa)、証券分析における基礎知識タスク(cma_basics)、公認会計士試験における監査に関するタスク(cpa_audit)、ファイナンシャルプランナー試験の選択肢問題のタスク(fp2)、証券外務員試験の模擬試験タスク(security_sales_1)を含む。詳細はこちらを参照Preferred Networks
pfmt-bench-fin-ja金融分野における日本語 LLM の生成能力を測定するためのベンチマーク。Preferred Networks
Stockmark Business Questions市場動向、時事問題、社会課題、ビジネストレンドなどの知識を問う問題が50題収録されている。ストックマーク
JMED-LLM日本語医療分野における LLM の評価用データセット。これまでに開発されてきた日本語の医療言語処理タスクを LLM ベンチマーク用にまとめている。NAIST ソーシャル・コンピューティング研究室
karakuri-bench日本語 LLM のカスタマーサポートにおける性能を測定するためのデータセット。カラクリ

<a id="factuality-safety-benchmark-suites"></a>

事実性・安全性を測定するベンチマーク/データセット

説明開発元
JTruthfulQALLM の事実性を評価するデータセット TruthfulQA の日本語版。迷信などの、一部の人々に信じられているが事実とは言えない事象に関する質問群と、日本固有の知識に関する質問群が、一から収集されている。早大 河原研
JCommonsenseMorality日本語の常識道徳に関するデータセット。行為を表す文に対して、道徳的に間違っているか許容できるかの 2 値ラベルが割り当てられている。北大 言語メディア学研究室
JBBQ社会性バイアスQAデータセット BBQ を、日本の文化・慣習を踏まえて翻訳、修正、問題追加を行い作成されたデータセット。東大 谷中研

<a id="logical-reasoning-benchmark-suites"></a>

論理推論能力を測定するベンチマーク/データセット

説明開発元
JFLD (Japanese Formal Logic Deduction)日本語 LLM の演繹推論能力を問うデータセット(同著者らが提案している FLD (Formal Logic Deduction) の日本語版)。LLM が持つ知識と切り分けて評価を行うために、反実仮想的なサンプルから構成されているのが特徴である。日立製作所
JHumanEval英語の指示から Python コードの生成能力を評価するベンチマークである HumanEval の日本語版。日本語版を作成する際には、まず機械翻訳にかけたあと、人手での修正を行っている。日本女子大 倉光研

<a id="controllabilitiy-benchmark-suites"></a>

制約付きの生成能力を測定するベンチマーク/データセット

説明開発元
LCTG Bench日本語 LLM の制御性ベンチマーク。出力のフォーマット、文字数、キーワード、NGワードの 4 つの観点から、LLM が制約を守って出力を行えているかを評価する。生成されたテキストの品質も合わせて評価する。サイバーエージェント

<a id="embeddings-benchmark-suites"></a>

埋め込みモデルのベンチマーク/データセット

説明開発元
JMTEBMTEBの日本語版として作成されたベンチマーク。<br>文書クラスタリング、文書分類、文間類似度、文ペアラベル予測、文書抽出の5種類のタスクから構成されている(その後、リランキングタスクが新たに追加)。SB Intuitions
JQaRA日本語の文書抽出・リランキング精度評価のためのデータセット。1,667件の質問文それぞれに対し、候補となる100件のドキュメントが割り当てられており、そのうち1件以上が質問文に回答できる内容になっている。質問文は JAQKET を、候補のドキュメントは日本語 Wikipedia を用いている。個人 (舘野祐一)
JaCWIRWikipedia 以外のドメインで文書抽出・リランキングの評価を行えることを目指して作成されたデータセット。5,000件の質問文それぞれに対し、その質問文が作成される元になった 1 件の Webページと、質問文とは関係のない 99 件の Web ページが割り当てられている。個人 (舘野祐一)

<a id="vl-benchmark-suites"></a>

視覚言語モデル (Vision-Language Models) のベンチマーク/データセット

説明開発元
Heron VLM リーダーボード powered by nejumi@WandBJapanese-Heron-BenchLLaVA-Bench-In-the-Wild (Japanese) の評価結果をまとめている。Turing, Weights & Biases
<a id="japanese-heron-bench"></a> Japanese-Heron-Bench21 枚の画像に対して計 102 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。Turing
JA-VLM-Bench-In-the-WildSakana AI が EvoVLM-JP-v1-7B の評価のために独自に用意したデータセット。42 枚の画像に対して計 50 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。Sakana AI
JA-Multi-Image-VQA複数の画像に対する日本語での質疑応答能力を評価するデータセット。Sakana AI
<a id="llava-bench-in-the-wild"></a> LLaVA-Bench-In-the-Wild (Japanese)LLaVA-Bench-In-the-Wild を DeepL で日本語に訳したもの。24 枚の画像に対して計 60 問の質問が割り当てられている。Turing
LLaVA-Bench (COCO) JapaneseLLaVA の評価に使われた LLaVA-Bench (COCO) データセットを DeepL で日本語に訳したもの。30 枚の画像に対して各 3 種類の質問が割り当てられている。Turing

<a id="reference"></a>

各モデル・アーキテクチャの原論文

<!--@include: @/parts/references_model.md-->

<a id="reference-training"></a>

LLMの学習手法の原論文

<!--@include: @/parts/references_training.md-->

<a id="contributors"></a>

コントリビューター

このプロジェクトに貢献してくれているコントリビューターのみなさんです!

<a href="https://github.com/llm-jp/awesome-japanese-llm/graphs/contributors" target="_blank" rel="noreferrer"> <img src="./figures/contributors.svg" alt="コントリビューター" /> </a>

<a id="citation"></a>

引用

このリポジトリの要約はプレプリントとしても公開されています: Exploring Open Large Language Models for the Japanese Language: A Practical Guide

このリポジトリについて言及する場合は、以下の通り引用してください:

@article{awesomeJapanese2024,
    title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
    author={Kaito Sugimoto},
    doi={10.51094/jxiv.682},
    journal={Jxiv preprint},
    year={2024}
}

Footnotes

  1. 詳細は以下の記事を参照: 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など, 大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー 2

  2. ただし、モデル高速化のため本家の Llama に対してアーキテクチャの変更を加えている。詳しくは以下を参照: PLaMo-13Bを公開しました

  3. 詳細は明記されていないが、プレスリリースには以下のような記述がある: 『学習データには、オープンデータセットに加え、Stability AI Japanが作成した独自のデータセットや、EleutherAI Polyglot project の日本語チーム及び Stable Community Japan のメンバーの協力のもとで作成したデータが含まれています。』

  4. 通常の左から右に単語を予測する代わりに、右から左に単語を予測するように訓練された言語モデルの評価を行った研究である。通常方向の言語モデルと逆方向の言語モデルの両方が公開されている。

  5. Instruction Tuning を行う前に、Llama 3 Instruct と Llama 3 Base の差分の Chat Vector を加えている。 2

  6. Instruction Tuning を行った後に、Llama 3 Instruct と Llama 3 Base の差分の Chat Vector を加えている。 2

  7. ただし、KARAKURI LM を商用利用したい場合は、開発元であるカラクリ株式会社に直接連絡が必要であるとしている。

  8. Instruction Tuning において、GPT-3.5, GPT-4 等の OpenAI のモデルで生成されたデータを使って学習しているため、OpenAI の規約に違反している可能性がある。 2 3 4 5 6 7 8 9 10

  9. ○: HuggingFace の Model Hub にモデルがアップロードされており、AutoModel.from_pretrained() 等ですぐ読み込める。 △: Model Hub にはモデルがアップロードされていないが、HuggingFace (transformers, 旧 pytorch-transformers) の形式に対応している。✕: モデルがHuggingFaceに対応していない。

  10. 様々な形態素解析器とサブワード化手法の組み合わせを試した研究である。全ての組み合わせのモデルを掲載するのは大変なので、ここでは実験で最も平均のタスク性能が高い Juman++ + BPE のモデルを代表として掲載している。

  11. ただし、最大系列長が 2048 に拡張されているほか、元の BERT に対して様々なアーキテクチャの変更が施されている。詳しくは HuggingFace リポジトリの README を参照。

  12. nlp-waseda/roberta-base-japanese 及び nlp-waseda/roberta-large-japanese はモデル入力の最大トークン長を128で事前学習しているが、nlp-waseda/roberta-large-japanese-seq512 は512で事前学習している

  13. ただし、最大系列長が通常の 512 から 1282 まで拡張されており、より長い入力文を扱うことができる

  14. small の方は日本語 Wikipedia と日本語金融コーパスを合わせてスクラッチ学習しているが、base の方は東北大BERTに日本語金融コーパスを追加学習しているという違いがある

  15. 万病WordPieceモデルは MeCab (IPA辞書+万病辞書) で単語分割した後 WordPiece でサブワード化するモデル、SentencePieceモデルは単語分割せずに直接 Unigram でサブワード化するモデル

  16. それぞれのモデルの詳細は作者らの論文の第4章を参照。なお、SC-2M-wiki モデルは Wikipedia でのみ事前学習されているため、厳密にはドメイン特化型モデルではない。

  17. ただし、研究および教育を目的とした利用を念頭に置くよう呼びかけている。また、マージ元のモデルのいくつかのライセンスは Apache 2.0 ではない点にも注意すること。 2 3