Awesome

日本語LLMまとめ

<p align="center"> <img src="./figures/parameter_size_overview_ja.png" alt="日本語LLM・海外LLMのパラメータサイズの推移"> </p> <figcaption style="font-style: italic; font-size: 0.9em; color: #6b7280; text-align: center;">日本語LLM・海外LLMのパラメータ数の推移。日本語モデルの情報は本記事、海外モデルの情報は LifeArchitect.ai の <a href="https://lifearchitect.ai/models-table/" target="_blank" rel="noreferrer">Models table</a> を参照しています（ただし、図のスペース上一部のモデルは省略。また、海外モデルのパラメータ数は推測値を含む）。修正・追加等ありましたらお知らせ下さい。</figcaption>

この記事は、一般公開されている日本語LLM（日本語を中心に学習されたLLM）および日本語LLM評価ベンチマークに関する情報をまとめたものです。情報は、有志により収集されており、その一部は論文や公開されているリソースなどから引用しています。

::: warning 以下の点について、あらかじめご理解とご了承をお願いいたします

本記事の内容は、完全性や正確性を保証するものではありません。これらの情報は予告なく変更されることがあり、また最新の情報を常に提供できるとは限りません。
一部の情報は、推測や個々の利用者の解釈にもとづくものである場合があります。そのため、全ての読者にとって必ずしも正確であるとは限りません。
本記事に記載されているモデルの多くは、MIT や Apache-2.0 といったオープンソースライセンスが適用されています。しかしながら、一部のモデルには、非営利限定のライセンス（例：CC BY-NC-SA 4.0）や開発元特有のライセンスが適応されており、これらは必ずしもオープンソースとは言えない可能性がある点にご注意ください。
個人が開発したモデルに関する記述では、作成者の敬称は省略させていただいております。 :::

この記事の管理は GitHub で行っています。記事の間違いを発見した場合、あるいはモデルの追加提案を行いたい場合は、GitHub Issues 経由で報告していただけますと幸いです。

::: details 目次 [[toc]] :::

テキスト生成に主に使うモデル

画像を含むテキスト生成モデルはこちら

フルスクラッチ学習モデル

汎用

	アーキテクチャ	入出力で扱える<br>トークン数	学習テキスト	開発元	ライセンス / 利用規約
Sarashina2-8x70B	Mixtral<br>(8x70b (465b))	8,192	Sarashina2 (70B) に対して Sparse Upcycling で学習	SB Intuitions	Sarashina Model NonCommercial License
LLM-jp-3 172B beta2	Llama<br>(172b-beta2, 172b-beta2-instruct2)	4,096	事前学習: llm-jp-corpus-v3の一部<br>(計 1.4T トークン)<br>Instruction Tuning: ichikara-instruction, answer-carefully, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k	大規模言語モデル研究開発センター (LLMC)	LLM-jp-3 172B beta2 Terms of Use
LLM-jp-3 172B beta1	Llama<br>(172b-beta1, 172b-beta1-instruct)	4,096	事前学習: llm-jp-corpus-v3の一部<br>(計 0.7T トークン)<br>Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN	大規模言語モデル研究開発センター (LLMC)	LLM-jp-3 172B beta1 Terms of Use
LLM-jp-3 172B alpha	Llama<br>(172b-alpha1, 172b-alpha1-instruct, 172b-alpha2, 172b-alpha2-instruct)	4,096	事前学習: llm-jp-corpus-v3の一部<br>(alpha1: 計 0.7T トークン, alpha2: 計 1.4T トークン)<br>Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN	大規模言語モデル研究開発センター (LLMC)	Apache 2.0
Stockmark-100b	Llama<br>(100b, 100b-instruct-v0.1)	4,096	事前学習: RedPajama, 日本語 Wikipedia, Japanese mC4, Japanese CommonCrawl, 日本語特許, Stockmark Web Corpus<br>(計 910B トークン)<br>Instruction Tuning (LoRA): ichikara-instruction	ストックマーク	MIT
PLaMo-100B-Pretrained	Llama¹<br>(100b)	4,096	事前学習: Japanese CommonCrawl, RefinedWeb, 独自のデータセット<br>(計: 2.0T トークン)	Preferred Elements	PLaMo Non-Commercial License
Sarashina2	Llama<br>(7b, 13b, 70b)	7b, 13b: 4,096<br>70b: 8,192	事前学習: Japanese Common Crawl, SlimPajama, StarCoder<br>(計 2.1T トークン)	SB Intuitions	MIT
Sarashina1	GPT-NeoX<br>(7b, 13b, 65b)	2,048	事前学習: Japanese Common Crawl<br>(計 1T トークン)	SB Intuitions	MIT
Tanuki-8×8B	Tanuki (MoE) (47b)<br>(v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)	4,096	事前学習: 様々な Web 上のデータ, 合成データ（計 1.7T トークン）<br>SFT, DPO: 様々な合成データ ²	松尾研LLM開発プロジェクト	Apache 2.0
CyberAgentLM3 (CALM3)	Llama<br>(22b-chat)	16,384	不明<br>(計 2.0T トークン)	サイバーエージェント	Apache 2.0
LLM-jp-3 13B	Llama<br>(1.8b, 1.8b-instruct, 3.7b, 3.7b-instruct, 13b, 13b-instruct)	4,096	事前学習: llm-jp-corpus-v3<br>(計 2.1T トークン)<br>Instruction Tuning: ichikara-instruction, answer-carefully, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k	大規模言語モデル研究開発センター (LLMC)	Apache 2.0
llm-jp-3-3.7b-instruct-EZO	Llama<br>(3.7b-instruct-EZO-Common, 3.7b-instruct-EZO-Humanities)	4,096	LLM-jp-3 (3.7B) に対して追加学習	Axcxept	Apache 2.0
LLM-jp-13B v2.0	Llama<br>(13b-v2.0, 13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0)	4,096	事前学習: llm-jp-corpus-v2<br>(計 260B トークン)<br>Instruction Tuning: ichikara-instruction, answer-carefully, Dolly Dataset, OASST1, OASST2	LLM-jp	Apache 2.0
Fugaku-LLM	GPT<br>(13B, 13B-instruct, 13B-instruct-gguf)	2,048	事前学習: 独自<br>Instruction Tuning: OASST1, Dolly Dataset, GSM8K	東工大, 東北大, 富士通, 理研, 名大, サイバーエージェント, Kotoba Technologies	Fugaku-LLM Terms of Use
LLM-jp-13B v1.1	GPT<br>(13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-dpo-lora-hh_rlhf_ja-v1.1)	2,048	Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, ichikara-instruction<br>DPO (LoRA): HH RLHF	LLM-jp	Apache 2.0
LLM-jp-13B	GPT<br>(1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0)	2,048	事前学習: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (計 300B トークン)<br>Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1	LLM-jp	Apache 2.0
PLaMo-13B	Llama³<br>(13b, 13b-instruct, 13b-instruct-nc)	base: 4,096<br>instruct, instruct-nc: 8,192	事前学習: C4, Project Gutenberg, RedPajama, 日本語 Wikipedia, Japanese mC4<br>(計 1.5T トークン)<br>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1, llm-japanese-datasetのwikinews subset (NCモデルでは商用利用不可の Alpaca Dataset も含めて学習)	Preferred Networks	Apache 2.0<br>(NC モデルは CC BY-NC 4.0)
Stockmark-13b	Llama<br>(13b, 13b-instruct)	2,048	事前学習: 日本語 Wikipedia、Japanese CC-100、Japanese mC4、Japanese CommonCrawl、日本語特許、Stockmark Web Corpus<br>(計 220B トークン)<br>Instruction Tuning (LoRA): ichikara-instruction	ストックマーク	baseモデル: MIT<br>instructモデル: CC BY-NC-SA 4.0
Weblab-10B	GPT-NeoX<br>(10b, 10b-instruction-sft)	2,048	Japanese mC4 + The Pile（計 600B トークン）<br>*instruction-sft モデルは Alpaca Dataset, FLAN でファインチューニング	東大松尾研	CC BY-NC 4.0
Tanuki-8B	Tanuki (8b)<br>(v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)	4,096	事前学習: 様々な Web 上のデータ, 合成データ（計 1.3T トークン）<br>SFT, DPO: 様々な合成データ ²	松尾研LLM開発プロジェクト	Apache 2.0
Japanese StableLM Alpha	GPT-NeoX<br>(base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2)	2,048	Wikipedia, Japanese CC-100, Japanese mC4, Japanese OSCAR, RedPajama<br>(+ 独自のデータセット)⁴<br>(計 750B トークン)<br>*instruct モデルでは Alpaca Dataset, Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetでファインチューニング<br>(v2では商用利用不可の Alpaca Dataset を除外)	Stability AI	baseモデル: Apache 2.0<br>instruct モデル (v1): 独自のライセンス<br>instruct モデル (v2): Apache 2.0
CyberAgentLM2 (CALM2)	Llama<br>(7b, 7b-chat, 7b-chat-dpo-experimental)	base: 4,096<br>chat: 32,768	一般公開されている日本語・英語のデータセット（詳細不明） (計 1.3T トークン)<br>*dpo モデルは Chatbot Arena Conversations JA (calm2) Dataset を用いて DPO で学習	サイバーエージェント	Apache 2.0<br>(dpo モデルのみ CC BY 4.0)
OpenCALM	GPT-NeoX<br>(small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b))	2,048	日本語 Wikipedia <br>+ Jpanese mC4<br>+ Japanese CC-100	サイバーエージェント	CC BY-SA 4.0
Stormy	GPT-NeoX<br>(7b(6.8b))	2,048	OpenCALM (6.8b) に対して<br>llm-japanese-dataset v0 のうち翻訳タスクを除いたデータで LoRAチューニング	東大和泉研	CC BY-SA 4.0
rinna GPT <br> (英語やコードも含めて学習されたモデル)	GPT-NeoX<br>(4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo)	8kモデル: 8,192<br>他: 2,048	Wikipedia, Japanese CC-100, Japanese C4, RedPajama, The Pile<br>(計 524B トークン)<br>8k モデルでは 4,000トークンを超える長いトークン列でファインチューニング<br>instruction-sft モデルでは HH RLHF、FLAN でファインチューニング<br>*instruction-ppo モデルでは HH RLHF で PPO ベースの強化学習	rinna	MIT
japanese-large-lm	GPT-NeoX<br>(1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft)	2,048	日本語 Wikipedia, Japanese CC-100, Japanese C4, Japanese OSCAR や独自データなど<br>(計 650GB)<br>*instruction-sft モデルでは OASST1 でファインチューニング	LINE	Apache 2.0
rinna GPT <br> (日本語のみで学習されたモデル)	GPT または GPT-NeoX<br>(xsmall, small, medium, 1b, neox-small, neox-3.6b, neox-3.6b-instruction-sft, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo)	≤ 2,048	日本語 Wikipedia <br> + Japanese CC-100 <br> (1b 以降のモデルでは<br>さらに Japanese mC4 を追加)<br>instruction-sft, sft-v2 モデルでは HH RLHF、FLAN、SHP データセットでさらにファインチューニング<br>instruction-ppo モデルでは HH RLHF でさらに PPO ベースの強化学習	rinna	MIT
レトリバT5	T5<br>(small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b))		日本語 Wikipedia + Japanese mC4	レトリバ	CC BY-SA 4.0
Spiral-RetNet-3b-base	RetNet<br>(3b)	2,048	Wikipedia, Japanese CC-100, CulturaX	Spiral.AI	MIT
kotomamba-2.8B	Mamba<br>(2.8B-v1.0)	2,048	日本語 Wikipedia, Swallow Corpus, SlimPajama	Kotoba Technologies	Apache 2.0
ABEJA GPT	GPT または GPT-NeoX<br>(large, neox-2.7b)		日本語 Wikipedia <br> + Japanese CC-100 <br> + Japanese OSCAR	ABEJA	MIT
早大GPT	GPT<br>(small, xl(1.5b))		日本語 Wikipedia<br> + Japanese CC-100	早大河原研	CC BY-SA 4.0
ストックマークGPT	GPT-NeoX<br>(1.4b)		日本語 Wikipedia (0.88B トークン)<br>+ Japanese CC-100 (10.5B トークン)<br>+ 独自のWebデータ (8.6B トークン)	ストックマーク	MIT
イエローバックGPT	GPT-NeoX<br>(1.3b)		日本語 Wikipedia <br> + Japanese CC-100 <br> + Japanese OSCAR	イエローバック	Apache 2.0
colorfulscoop GPT	GPT<br>(small)		日本語 Wikipedia	Colorful Scoop	CC BY-SA 3.0
東工大GPT	GPT<br>(medium, medium (逆方向)) ⁵		日本語 Wikipedia + Japanese CC-100	東工大岡崎研	CC BY-SA 4.0
京大GPT	GPT<br>(small (文字レベル), medium (文字レベル), large (文字レベル))		日本語 Wikipedia (約2,700万文 (3.2GB)) <br>+ Japanese CC-100 (約6億1,900万文 (85GB)) <br>+ Japanese OSCAR (約3億2,600万文 (54GB))	京大言語メディア研究室	CC BY-SA 4.0
日本語BART	BART<br>(base, large)		日本語 Wikipedia (約1,800万文)	京大言語メディア研究室	CC BY-SA 4.0
Megagon Labs T5	T5<br>(base)		Japanese mC4 (87,425,304 ページ (782 GB))<br>+ Japanese wiki40b (828,236 記事 (2 GB))	Megagon Labs <br> (リクルート)	Apache 2.0

ドメイン特化型

	ドメイン	アーキテクチャ	学習テキスト	開発元	ライセンス
日本語対話Transformer	対話	Transformer	Twitter 上の日本語リプライのペア	NTT	独自のライセンス
日本語ニュースBART	ビジネス	BART (base)	日本語ビジネスニュース記事（約2,100万記事 (2.9億文)）	ストックマーク	MIT
AcademicBART	学術	BART (base)	CiNii の日本語論文	愛媛大人工知能研究室	Apache 2.0

海外モデルに日本語で継続事前学習を行ったモデル

汎用

	ベースのLLM	学習テキスト	開発元	ライセンス / 利用規約
Llama 3.1 Swallow 70B<br>(70B-v0.1, 70B-Instruct-v0.1)	Llama 3.1 (70b)	事前学習: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus<br>Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie	Swallowプロジェクト	Llama 3.1 Community License<br>(Instructモデルは Gemma Terms of Use も適用)
cyberagent/Llama-3.1-70B-Japanese-Instruct-2407	Llama 3.1 (70b)	不明	サイバーエージェント	Llama 3.1 Community License
Llama 3 Swallow 70B<br>(70B-v0.1, 70B-Instruct-v0.1)	Llama 3 (70b)	事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath<br>Instruction Tuning: OASST1 ⁶	Swallowプロジェクト	Llama 3 Community License
turing-motors/Llama-3-heron-brain-70B-v0.3	Llama 3 (70b)	Llama 3 Swallow 70B に対して追加学習（詳細不明）	Turing	Llama 3 Community License
Llama 3 Youko 70B<br>(70b, 70b-instruct, 70b-gptq, 70b-instruct-gptq)	Llama 3 (70b)	事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット<br>(計 5B トークン)<br>Instruction Tuning: 独自のデータセット⁷	rinna	Llama 3 Community License
Swallow 70B<br>(70b-hf, 70b-instruct-hf, 70b-instruct-v0.1, 70b-NVE-hf, 70b-NVE-instruct-hf)	Llama 2 (70b)	事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile<br>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1<br>*v0.1モデルでは OASST1, OASST2 を使用	Swallowプロジェクト	Llama 2 Community License
KARAKURI LM<br>(70b-v0.1, 70b-chat-v0.1)	Llama 2 (70b)	事前学習: mC4, CC100, OSCAR, RedPajama, 独自のデータセット<br>(計 16B トークン)<br>SteerLM: OASST2, 独自のデータセット	カラクリ	Llama 2 Community License⁸
Japanese Stable LM Beta 70B<br>(base-beta-70b, instruct-beta-70b)	Llama 2 (70b)	事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)<br>(計 100B トークン)<br>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1	Stability AI	Llama 2 Community License
Swallow-MX 8x7B<br>(8x7b-NVE-v0.1)	Mixtral-8x7B-Instruct-v0.1 (46.7b)	事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The Vault	Swallowプロジェクト	Apache 2.0
KARAKURI LM 8x7B Instruct v0.1<br>(8x7b-instruct-v0.1)	Mixtral-8x7B-Instruct-v0.1 (46.7b)	Swallow-MX 8x7B に対して以下のデータセットで学習: Dolly Dataset, OASST2, HelpSteer, glaive-code-assistant-v3, glaive-function-calling-v2, synthetic_text_to_sql, MetaMathQA, orca-math-word-problems-200k, rag-dataset-12000, rag-hallucination-dataset-1000, 独自のデータセット	カラクリ	Apache 2.0 (?)⁹
KARAKURI LM 8x7B Chat v0.1<br>(8x7b-chat-v0.1)	Mixtral-8x7B-Instruct-v0.1 (46.7b)	Swallow-MX 8x7B に対して<br>SteerLM: OASST2, HelpSteer, 独自のデータセット	カラクリ	Apache 2.0
ABEJA-Mixtral-8x7B-japanese<br>(8x7B-v0.1-japanese, 8x7B-Instruct-v0.1-japanese, 8x7B-Instruct-v0.1-japanese-alpha, 8x7B-Instruct-v0.1-japanese-alpha-merged)	Mixtral-8x7B-Instruct-v0.1 (46.7b)<br>*Instructが名前に付いていないモデルのみ Mixtral-8x7B-v0.1 がベース	事前学習: Japanese CC, Redpajama, 独自<br>（計 450B トークン）	ABEJA	Apache 2.0
Nekomata 14B<br>(14b, 14b-instruction, 14b-gguf, 14b-instruction-gguf)	Qwen (14b)	事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット<br>(計 66B トークン)<br>Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部	rinna	Tongyi Qianwen LICENSE
Swallow 13B<br>(13b-hf, 13b-instruct-hf, 13b-instruct-v0.1, 13b-NVE-hf)	Llama 2 (13b)	事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile<br>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1<br>*v0.1モデルでは OASST1, OASST2 を使用	Swallowプロジェクト	Llama 2 Community License
LEIA-Swallow-13B<br>(13b)	Llama 2 (13b)	Swallow 13B に対して LEIA で追加学習	個人 (山田育矢, 李凌寒)	Llama 2 Community License
ELYZA-japanese-Llama-2-13b<br>(13b, 13b-instruct, 13b-fast, 13b-fast-instruct)	Llama 2 (13b)	事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど<br>(計 18B トークン)<br>Instruction Tuning: 独自のデータセット	ELYZA	Llama 2 Community License
cyberagent/Mistral-Nemo-Japanese-Instruct-2408	Mistral NeMo (12b)	不明	サイバーエージェント	Apache 2.0
Llama 3.1 Swallow 8B<br>(8B-v0.1, 8B-Instruct-v0.1, 8B-v0.2, 8B-Instruct-v0.2)	Llama 3.1 (8b)	事前学習: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus<br>Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie	Swallowプロジェクト	Llama 3.1 Community License<br>(Instructモデルは Gemma Terms of Use も適用)
Llama 3 Swallow 8B<br>(8B-v0.1, 8B-Instruct-v0.1)	Llama 3 (8b)	事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath<br>Instruction Tuning: OASST1 ⁶	Swallowプロジェクト	Llama 3 Community License
turing-motors/Llama-3-heron-brain-8B-v0.3	Llama 3 (8b)	Llama 3 Swallow 8B に対して追加学習（詳細不明）	Turing	Llama 3 Community License
Llama 3 Youko 8B<br>(8b, 8b-instruct, 8b-gptq, 8b-instruct-gptq)	Llama 3 (8b)	事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット<br>(計 22B トークン)<br>Instruction Tuning⁷: Aya Dataset (Japanese subset), FLAN, Dolly Dataset, HH RLHF, OASST1, OASST2, MetaMathQA, CodeAlpaca Dataset, 独自のデータセット<br>DPO: HelpSteer, HelpSteer2, 独自のデータセット	rinna	Llama 3 Community License
Llama 3 ELYZA JP 8B<br>(8B, 8B-GGUF, 8B-AWQ)	Llama 3 (8b)	不明	ELYZA	Llama 3 Community License
Llama 3 neoAI 8B Chat v0.1<br>(8B-Chat-v0.1)	Llama 3 (8b)	不明	neoAI	Llama 3 Community License
Llama 3 tedllm<br>(v0)	Llama 3 (8b)	事前学習: 日本語の一般コーパス	東京エレクトロンデバイス	Llama 3 Community License
Swallow 7B<br>(7b-hf, 7b-instruct-hf, 7b-instruct-v0.1, 7b-NVE-hf, 7b-NVE-instruct-hf, 7b-plus-hf)	Llama 2 (7b)	事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile<br>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1<br>*v0.1モデルでは OASST1, OASST2 を使用	Swallowプロジェクト	Llama 2 Community License
LEIA-Swallow-7B<br>(7b)	Llama 2 (7b)	Swallow 7B に対して LEIA で追加学習	個人 (山田育矢, 李凌寒)	Llama 2 Community License
ELYZA-japanese-Llama-2-7b<br> (7b, 7b-instruct, 7b-fast, 7b-fast-instruct)	Llama 2 (7b)	事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど<br>(計 18B トークン)<br>Instruction Tuning: 独自のデータセット	ELYZA	Llama 2 Community License
Youri 7B<br>(7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq)	Llama 2 (7b)	事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット<br>(計 40B トークン)<br>Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部	rinna	Llama 2 Community License
houou-7b<br>(instruction-7b-v1, instruction-7b-v2, instruction-7b-v3)	Llama 2 (7b)	Youri 7B (base) に対して Instruction Tuning: ichikara-instruction	マネーフォワード	Llama 2 Community License
Japanese Stable LM Beta 7B<br>(base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b)	Llama 2 (7b)	事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)<br>(計 100B トークン)<br>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1	Stability AI	Llama 2 Community License
SambaLingo-Japanese<br>(Base, Chat)	Llama 2 (7b)	事前学習: CulturaX<br>Instruction Tuning: ultrachat_200k<br>DPO: ultrafeedback, cai-conversation-harmless	SambaNova Systems	Llama 2 Community License (?)⁹
blue-lizard<br>(blue-lizard)	Llama 2 (7b)	不明	Deepreneur	Llama 2 Community License
Swallow-MS 7B<br>(7b-v0.1, 7b-instruct-v0.1)	Mistral-7B-v0.1 (7b)	事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile<br>Instruction Tuning: Dolly Dataset, OASST1	Swallowプロジェクト	Apache 2.0
RakutenAI-7B<br>(7B, 7B-instruct, 7B-chat)	Mistral-7B-v0.1 (7b)	事前学習: 不明<br>Instruction Tuning: Dolly Dataset, OASST1, （jasterと同様に）言語理解データセットの訓練データを Instruction Tuning 用に変換したもの, 独自のデータセット	楽天	Apache 2.0
Japanese Stable LM Gamma 7B<br>(base-gamma-7b, instruct-gamma-7b)	Mistral-7B-v0.1 (7b)	事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)<br>(計 100B トークン)<br>Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset	Stability AI	Apache 2.0
ChatNTQ JA 7B<br>(7b-v1.0)	Mistral-7B-v0.1 (7b)	Japanese Stable LM Gamma 7B (base) に対して独自のデータセットで Instruction Tuning	NTQ Solution	Apache 2.0
Shisa Gamma 7B<br>(7b-v1)	Mistral-7B-v0.1 (7b)	Japanese Stable LM Gamma 7B (base) に対して ultra-orca-boros-en-ja で Instruction Tuning	AUGMXNT	Apache 2.0 (?)⁹
Shisa 7B<br>(base-7b-v1, 7b-v1)	Mistral-7B-v0.1 (7b)	事前学習: shisa-pretrain-en-ja-v1 (8B トークン)<br>Instruction Tuning & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1	AUGMXNT	Apache 2.0 (?)⁹
Karasu<br>(7B, 7B-chat, 7B-chat-plus, 7B-chat-plus-unleashed)	Mistral-7B-v0.1 (7b)	Shisa 7B (base) に対して以下のデータセットで追加事前学習: 青空文庫, 日本の法律・判例, 日本語 Wikipedia, CulturaX の日本ドメインのデータ, UltraChat 200k (計 7B トークン)<br>Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット	Lightblue	Apache 2.0 (?)⁹
Nekomata 7B<br>(7b, 7b-instruction, 7b-gguf, 7b-instruction-gguf)	Qwen (7b)	事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット<br>(計 66B トークン)<br>Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部	rinna	Tongyi Qianwen LICENSE
lightblue/japanese-mpt-7b	MPT (7b)	Japanese mC4	Lightblue	Apache 2.0
Japanese Stable LM 3B-4E1T<br>(3b-4e1t-base, 3b-4e1t-instruct)	StableLM-3B-4E1T (3b)	事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)<br>(計 100B トークン)<br>Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset	Stability AI	Apache 2.0
kotomamba-2.8B-CL	mamba-2.8b-slimpj<br>(2.8b)	日本語 Wikipedia, Swallow Corpus, SlimPajama	Kotoba Technologies	Apache 2.0
Gemma 2 Baku 2B<br>(2b, 2b-it)	Gemma 2 (2b)	事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット<br>(計 80B トークン)<br>OPRO: 独自のデータセット ¹⁰	rinna	Gemma Terms of Use
Japanese Stable LM 2 1.6B<br>(base, instruct)	Stable LM 2 1.6B (1.6b)	事前学習: Wikipedia, CulturaX<br>Instruction Tuning: jaster, ichikara-instruction, alpaca-gpt4-japanese, ultra-orca-boros-en-ja-v1	Stability AI	STABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE
karasu-1.1B	TinyLlama (1.1b)	事前学習: Japanese OSCAR, Japanese mC4<br>(計 3B トークン)	Lightblue	Apache 2.0

ドメイン特化型

	ドメイン	ベースのLLM	開発元	ライセンス
Llama3-Preferred-MedSwallow-70B<br>(70B)	医療	Llama 3 (70b)	Preferred Networks	Llama 3 Community License
AIgroup-CVM-utokyohospital/MedSwallow-70b	医療	Llama 2 (70b)	東京大学医学部附属病院循環器内科 AIグループ	CC BY-NC-SA 4.0
nekomata-14b-pfn-qfin<br>(qfin, qfin-inst-merge)	金融	Qwen (14b)	Preferred Networks	Tongyi Qianwen LICENSE
Watashiha-Llama-2-13B-Ogiri-sft<br>(sft, sft-neuron)	大喜利	Llama 2 (13b)	わたしは	Llama 2 Community License
ELYZA-japanese-CodeLlama-7b<br>(7b, 7b-instruct)	コーディング	Code Llama<br>(7b)	ELYZA	Llama 2 Community License
AIBunCho/japanese-novel-gpt-j-6b	物語生成	GPT-J (6b)	個人 (大曽根宏幸)	CreativeML OpenRAIL-M License
NovelAI/genji-jp	物語生成	GPT-J (6b)	NovelAI	？

海外モデルに日本語で事後学習のみ行ったモデル

汎用

	ベースのLLM	学習テキスト	開発元	ライセンス / 利用規約
AXCXEPT/EZO-Qwen2.5-72B-Instruct<br>AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-72B-Instruct_q4	Qwen2.5 (72b)		Axcxept	Qwen License
ao-Karasu<br>(72B)	Qwen1.5 (72b)	ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 日本語の公開技術ブログ, ニュース記事, QAサイトの回答, 独自のデータセット	Lightblue	Tongyi Qianwen LICENSE (?)⁹
AXCXEPT/Llama-3.1-70B-EZO-1.1-it	Llama 3.1 (70b)		Axcxept	Llama 3.1 Community License
Llama 3 shisa-v1-llama3-70b<br>(70b)	Llama 3 (70b)	ultra-orca-boros-en-ja-v1	Shisa.AI	Llama 3 Community License (?)⁹
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese	Llama 2 (70b)		東京大学医学部附属病院循環器内科 AIグループ	Llama 2 Community License
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1	Llama 2 (70b)		同志社大学メディア情報学研究室	？
AXCXEPT/EZO-Qwen2.5-32B-Instruct<br>AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-32B-Instruct	Qwen2.5 (32b)		Axcxept	Apache 2.0
Qarasu<br>(14B-chat-plus-unleashed)	Qwen (14b)	ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット	Lightblue	Tongyi Qianwen LICENSE (?)⁹
Sparticle/llama-2-13b-chat-japanese-lora	Llama 2 (13b)		Sparticle	？
izumi-lab/llama-13b-japanese-lora-v0-1ep	Llama (13b)		東大和泉研	？
AXCXEPT/EZO-Common-9B-gemma-2-it	Gemma 2 (9b)		Axcxept	Gemma Terms of Use
AXCXEPT/EZO-Humanities-9B-gemma-2-it	Gemma 2 (9b)		Axcxept	Gemma Terms of Use
AXCXEPT/Llama-3.1-8B-EZO-1.1-it	Llama 3.1 (8b)		Axcxept	Llama 3.1 Community License
Llama 3 Suzume 8B<br>(8B-japanese, 8B-japanese-gguf)	Llama 3 (8b)	megagonlabs/instruction_ja, ShareGPT, 独自のデータセット	Lightblue	Llama 3 Community License (?)⁹
Llama 3 shisa-v1-llama3-8b<br>(8b)	Llama 3 (8b)	ultra-orca-boros-en-ja-v1	Shisa.AI	Llama 3 Community License (?)⁹
AXCXEPT/Llama-3-EZO-8b-Common-it	Llama 3 (8b)		Axcxept	Llama 3 Community License
ganchengguang/Yoko-7B-Japanese-v1	Llama 2 (7b)		横浜国大森研	？
Sparticle/llama-2-7b-chat-japanese-lora	Llama 2 (7b)		Sparticle	？
izumi-lab/llama-7b-japanese-lora-v0-5ep	Llama (7b)		東大和泉研	？
lightblue/jod	Mistral-7B-SlimOrca (7b)		Lightblue	Apache 2.0
NTQAI/chatntq-7b-jpntuned	RWKV-4 World (7b)		NTQ Solution	？
Borea<br>(Jp, Common, Coding)	Phi-3.5 (3.8b)		Axcxept	MIT
AXCXEPT/EZO-Llama-3.2-3B-Instruct-dpoE	Llama 3.2 (3b)		Axcxept	Llama 3.2 Community License
日本語版 Gemma 2 2B<br>(2b-jpn-it)	Gemma 2 (2b)		Google	Gemma Terms of Use
AXCXEPT/EZO-gemma-2-2b-jpn-it	Gemma 2 (2b)		Axcxept	Gemma Terms of Use
AXCXEPT/EZO-Common-T2-2B-gemma-2-it	Gemma 2 (2b)		Axcxept	Gemma Terms of Use

ドメイン特化型

	ドメイン	ベースのLLM	開発元	ライセンス
JMedLoRA<br>(llama2-jmedlora-6.89ep)	医療	Llama 2 (70b)	東京大学医学部附属病院循環器内科 AIグループ	CC BY-NC 4.0

複数のLLMをマージして作成されたモデル

	マージ元のLLM（太字は日本語LLM）	開発元	ライセンス
EQUES/MedLLama3-JP-v2	Llama 3 Swallow 8B (Instruct), OpenBioLLM-8B, MMed-Llama 3 8B, Llama 3 ELYZA JP 8B	EQUES	Llama 3 Community License
EvoLLM-JP-A<br>(v1-7B)	Shisa Gamma 7B (v1), Arithmo2 Mistral 7B, Abel 7B 002	Sakana AI	Apache 2.0
EvoLLM-JP<br>(v1-7B, v1-10B)	Shisa Gamma 7B (v1), WizardMath-7B-V1.1, Abel 7B 002	Sakana AI	MICROSOFT RESEARCH LICENSE

APIとして提供されているモデル

	入出力で扱える<br>トークン数	開発元	プラットフォーム
Solar mini chat ja<br>(solar-1-mini-chat-ja)	32,768	Upstage	独自
AIのべりすと	2,400 ~ 8,192	Bit192	独自
LHTM-OPT		オルツ	AWS Marketplace
tsuzumi<br>(tsuzumi-7b)		NTT	Azure AI Studio

入力テキストの処理に主に使うモデル

汎用

	アーキテクチャ	学習テキスト	開発元	ライセンス	HuggingFace ですぐ使える？ ¹¹
京大BERT	BERT (base, large)	日本語 Wikipedia (約1,800万文)	京大言語メディア研究室	Apache 2.0	△
東北大BERT	BERT (base, large)	base (v1):<br>日本語 Wikipedia 約1,700万文 (2.6GB)<br>base (v2) & large:<br>日本語 Wikipedia 約3,000万文 (4.0GB)<br>base (v3) & large (v2):<br>日本語 Wikipedia 約3,400万文 (4.9GB)<br>+ 日本語 CC-100 約3億9,200万文 (74.3GB)	東北大<br>自然言語処理研究グループ	base (v1, v2) & large: CC BY-SA 3.0<br>base (v3) & large (v2): Apache 2.0	◯ (base (v1), base (v1, 文字レベル), base (v2), base (v2, 文字レベル), large, large (文字レベル), base (v3), base (v3, 文字レベル), large (v2), large (v2, 文字レベル))
NICT BERT	BERT (base)	日本語 Wikipedia	NICT	CC BY 4.0	△
Laboro BERT	BERT (base, large)	日本語 Web コーパス <br> (ニュースサイトやブログなど<br>計4,307のWebサイト、2,605,280ページ (12GB))	Laboro.AI	CC BY-NC 4.0	✕
colorfulscoop BERT	BERT (base)	日本語 Wikipedia	Colorful Scoop	CC BY-SA 3.0	◯
東大BERT	BERT (small)	日本語 Wikipedia (約2,000万文 (2.9GB))	東大和泉研	CC BY-SA 4.0	◯
chiTra (Sudachi Transformers)	BERT (base)	国語研日本語ウェブコーパス (NWJC) (148GB)	NINJAL, ワークス徳島人工知能NLP研	Apache 2.0	△
ACCMS BERT	BERT (base)	日本語 Wikipedia (3.3GB)	京大 ACCMS	CC BY-SA 4.0	◯
日立BERT	BERT (base)	日本語 Wikipedia <br>+ Japanese CC-100	日立製作所	CC BY-NC-SA 4.0	◯ ¹²
RetrievaBERT	BERT ¹³	Japanese CommonCrawl, RefinedWeb, Chinese Wikipedia, Korean Wikipedia, The Stack	レトリバ	Apache 2.0	◯
Bandai Namco DistilBERT	DistilBERT	- （東北大BERT(base) を親モデルとして知識蒸留）	Bandai Namco Research	MIT	◯
Laboro DistilBERT	DistilBERT	- （Laboro BERT(base) を親モデルとして知識蒸留）	Laboro.AI	CC BY-NC 4.0	◯
LINE DistilBERT	DistilBERT	- （LINE社内のBERTを親モデルとして知識蒸留）	LINE	Apache 2.0	◯
rinna RoBERTa	RoBERTa (base)	日本語 Wikipedia <br>+ Japanese CC-100	rinna	MIT	◯
早大RoBERTa	RoBERTa (base, large)	日本語 Wikipedia <br>+ Japanese CC-100	早大河原研	CC BY-SA 4.0	◯ (base, large, large (seq512)) ¹⁴
インフォマティクスRoBERTa	RoBERTa (base)	日本語 Wikipedia<br> + Web 上の記事 (計25GB)	インフォマティクス	Apache 2.0	△
京大RoBERTa	RoBERTa (base, large)	日本語 Wikipedia <br>+ Japanese CC-100	京大言語メディア研究室	CC BY-SA 4.0	◯ (base (文字レベル), large (文字レベル))
横浜国大RoBERTa	RoBERTa (base)	日本語 Wikipedia (3.45GB)	横浜国大森研	Apache 2.0	◯
Megagon Labs RoBERTa	RoBERTa (base) ¹⁵	Japanese mC4 (約2億文)	Megagon Labs <br> (リクルート)	MIT	◯
ACCMS RoBERTa	RoBERTa (base)	日本語 Wikipedia (3.3GB) + Japanese CC-100 (70GB)	京大 ACCMS	CC BY-SA 4.0	◯
シナモンELECTRA	ELECTRA (small)	日本語 Wikipedia	シナモン	Apache 2.0	◯
Megagon Labs ELECTRA	ELECTRA (base)	Japanese mC4 (約2億文)	Megagon Labs <br> (リクルート)	MIT	◯
東大ELECTRA	ELECTRA (small, base)	日本語 Wikipedia (約2,000万文 (2.9GB))	東大和泉研	CC BY-SA 4.0	◯ (small, base)
日本語RoFormer	RoFormer (base)	日本語 Wikipedia (3.45GB)	横浜国大森研	Apache 2.0	◯
日本語LUKE	LUKE (base, large)	日本語 Wikipedia	Studio Ousia	Apache 2.0	◯ (base, large)
京大DeBERTaV2	DeBERTaV2 (tiny, base, large)	日本語 Wikipedia <br> + Japanese CC-100 <br> + Japanese OSCAR<br>（計171GB）	京大言語メディア研究室	CC BY-SA 4.0	◯ (tiny, tiny (文字レベル), base, large)
京大DeBERTaV3	DeBERTaV3 (base)	llm-jp-corpus	京大言語メディア研究室	Apache 2.0	◯
東大DeBERTaV2	DeBERTaV2 (small, base)	日本語 Wikipedia, 日本語 Wikinews, Japanese CC-100, Japanese mC4, Japanese OSCAR	東大和泉研	CC BY-SA 4.0	◯ (small, base)
GLOBIS DeBERTaV3	DeBERTaV3 (xsmall, base, large)	Wikipedia, WikiBooks, 青空文庫, Japanese CC-100, Japanese mC4, Japanese OSCAR	グロービス	CC BY-SA 4.0	◯ (xsmall, base, large)
日本語BigBird	BigBird (base)	日本語 Wikipedia <br> + Japanese CC-100 <br> + Japanese OSCAR	早大河原研	CC BY-SA 4.0	◯
日本語LayoutLM	LayoutLM (base)	東北大BERT (base, v2) で重みを初期化した上で、日本語 Wikipedia の文章とレイアウトで事前学習	日本総合研究所	CC BY-SA 3.0	◯

ドメイン特化型

	ドメイン	アーキテクチャ	学習テキスト	開発元	ライセンス	HuggingFace ですぐ使える？
日本語ニュースBERT	ビジネス	BERT (base)	日本語ビジネスニュース記事(300万記事)	ストックマーク	CC BY 4.0	△
日本語ニュースXLNet	ビジネス	XLNet (base)	日本語ビジネスニュース記事(300万記事)	ストックマーク	？	※ 非公式の HuggingFace 向けに変換されたモデルが公開されている
日本語ニュースALBERT	ビジネス	ALBERT (base)	日本語ビジネスニュース記事(300万記事)	ストックマーク	？	△
日本語ブログELECTRA	口語	ELECTRA (small)	日本語ブログコーパス（3億5,400万文）	北見工大桝井・プタシンスキ研	CC BY-SA 4.0	◯
日本語話し言葉BERT	話し言葉	BERT (base)	東北大BERTに対して日本語話し言葉コーパス（CSJ）を用いて追加学習<br>（DAPTモデルでは国会議事録データも使用）	レトリバ	Apache 2.0	◯
日本語金融BERT	金融	BERT (small, base) ¹⁶	日本語 Wikipedia<br> + 日本語金融コーパス (約2,700万文 (5.2GB))	東大和泉研	CC BY-SA 4.0	◯ (small, base)
日本語金融ELECTRA	金融	ELECTRA (small)	日本語 Wikipedia (約2,000万文 (2.9GB)) <br> + 日本語金融コーパス (約2,700万文 (5.2GB))	東大和泉研	CC BY-SA 4.0	◯
UTH-BERT	医療	BERT (base)	日本語診療記録(約1億2,000万行)	東大病院 <br>医療AI開発学講座	CC BY-NC-SA 4.0	△
medBERTjp	医療	BERT (base)	日本語 Wikipedia <br> + 日本語医療コーパス（『今日の診療プレミアム』Web版）	阪大病院 <br> 医療情報学研究室	CC BY-NC-SA 4.0	△
JMedRoBERTa	医療	RoBERTa (base)	日本語医学論文 (約1,100万文 (1.8GB))	NII 相澤研	CC BY-NC-SA 4.0	◯ (万病WordPiece, SentencePiece) ¹⁷
AcademicRoBERTa	学術	RoBERTa (base)	CiNii の日本語論文 (約628万文)	愛媛大人工知能研究室	Apache 2.0	◯
みんぱくBERT	文化財	BERT (base)	東北大BERTに対して国立民族学博物館の文化財データで追加学習	兵庫県立大学大島研	MIT	◯ (minpaku-v1, minpaku-v3, minpaku-v3-no-additional-token)
local-politics-BERT	政治	BERT (base)	Wikipedia, 国会会議録, 地方議会会議録	地方議会会議録コーパスプロジェクト	CC BY-SA 4.0	◯ (SC-min, SC-minwiki, SC-2M-wiki, SC-2M-min, SC-2M-minwiki, FP-min, FP-minwiki) ¹⁸

埋め込み (Embeddings) 作成に特化したモデル ¹⁹

Bi-Encoders

Single-representation bi-encoders

	入力で扱えるトークン数	開発元	ライセンス
RoSEtta<br>(pkshatech/RoSEtta-base-ja)	1,024	PKSHA Technology	Apache 2.0
GLuCoSE v2<br>(pkshatech/GLuCoSE-base-ja-v2)	512	PKSHA Technology	Apache 2.0
Ruri<br>(cl-nagoya/ruri-pt-small, cl-nagoya/ruri-pt-base, cl-nagoya/ruri-pt-large, cl-nagoya/ruri-small, cl-nagoya/ruri-base, cl-nagoya/ruri-large)	512	名大笹野研	Apache 2.0
Japanese SimCSE<br>(cl-nagoya/unsup-simcse-ja-base, cl-nagoya/unsup-simcse-ja-large, cl-nagoya/sup-simcse-ja-base, cl-nagoya/sup-simcse-ja-large)	512	名大笹野研	CC BY-SA 4.0
GLuCoSE<br>(pkshatech/GLuCoSE-base-ja)	512	PKSHA Technology	Apache 2.0
colorfulscoop/sbert-base-ja		Colorful Scoop	CC BY-SA 4.0
MU-Kindai/SBERT-JSNLI-base<br>MU-Kindai/SBERT-JSNLI-large		近畿大学 (研究室不明)	？
MU-Kindai/Japanese-SimCSE-BERT-base-unsup<br>MU-Kindai/Japanese-SimCSE-BERT-large-unsup<br>MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup<br>MU-Kindai/Japanese-SimCSE-BERT-base-sup<br>MU-Kindai/Japanese-SimCSE-BERT-large-sup		近畿大学 (研究室不明)	MIT
pkshatech/simcse-ja-bert-base-clcmlp		PKSHA Technology	CC BY-SA 4.0
MU-Kindai/Japanese-MixCSE-BERT-base<br>MU-Kindai/Japanese-MixCSE-BERT-large		近畿大学 (研究室不明)	MIT
MU-Kindai/Japanese-DiffCSE-BERT-base		近畿大学 (研究室不明)	MIT
bclavie/fio-base-japanese-v0.1		個人 (Benjamin Clavié)
cl-nagoya/shioriha-large-pt		名大笹野研

Multi-representation bi-encoders

	開発元	ライセンス
JaColBERTv2.5<br>(JaColBERTv2.4, JaColBERTv2.5)	Answer.AI	MIT
JaColBERTv2<br>(JaColBERTv2)	個人 (Benjamin Clavié)	MIT
JaColBERT<br>(JaColBERT)	個人 (Benjamin Clavié)	MIT

Cross-Encoders

	開発元	ライセンス
Ruri-Reranker<br>(cl-nagoya/ruri-reranker-stage1-small, cl-nagoya/ruri-reranker-stage1-base, cl-nagoya/ruri-reranker-stage1-large, cl-nagoya/ruri-reranker-small, cl-nagoya/ruri-reranker-base, cl-nagoya/ruri-reranker-large)	名大笹野研	Apache 2.0
hotchpotch/japanese-reranker-cross-encoder-xsmall-v1<br>hotchpotch/japanese-reranker-cross-encoder-small-v1<br>hotchpotch/japanese-reranker-cross-encoder-base-v1<br>hotchpotch/japanese-reranker-cross-encoder-large-v1<br>hotchpotch/japanese-bge-reranker-v2-m3-v1	個人 (舘野祐一)	MIT

視覚言語モデル (Vision-Language Models)

画像+テキストからのテキスト生成

スクラッチ学習モデル

汎用

	アーキテクチャ	学習画像/テキスト	開発元	ライセンス / 利用規約
llava-calm2-siglip<br>(llava-calm2-siglip)	LLaVA-1.5	MS-COCO と VisualGenome から生成された対話データ	サイバーエージェント	Apache 2.0
LLM-jp-3 VILA 14B<br>(14b)	LLaVA-1.5	Japanese image text pairs, LLaVA-Pretrain, Japanese interleaved data, coyo (subset), mmc4-core (subset), llava-instruct-ja, japanese-photos-conv, ja-vg-vqa, synthdog-ja, LLaVA-1.5 instruction data (subset)	大規模言語モデル研究開発センター (LLMC)	Apache 2.0 & OpenAI Terms of Use
Heron<br>(blip-ja-stablelm-base-7b-v0, blip-ja-stablelm-base-7b-v1, blip-ja-stablelm-base-7b-v1-llava-620k, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0, git-ja-stablelm-base-7b-v1)	BLIP-2 または GIT	v1: LLaVA-Instruct-150K-JA または LLaVA-Instruct-620K-JA<br>v0: LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA dataset	Turing	CC BY-NC 4.0
Japanese Stable VLM<br>(japanese-stable-vlm)	LLaVA-1.5	Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset	Stability AI	STABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE
Japanese InstructBLIP Alpha<br>(japanese-instructblip-alpha)	InstructBLIP	Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset	Stability AI	JAPANESE STABLELM RESEARCH LICENSE
rinna MiniGPT-4<br>(bilingual-gpt-neox-4b-minigpt4)	MiniGPT-4	CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA dataset	rinna	MIT

ドメイン特化型

	アーキテクチャ	ドメイン	開発元	ライセンス
watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlm	LLaVA	大喜利	わたしは	Llama 2 Community License

海外モデルに日本語で追加学習を行ったモデル

	ベースのVLM	学習画像/テキスト	開発元	ライセンス
AXCXEPT/EZO-InternVL2-26B	InternVL2	-	Axcxept	MIT

複数のVLM・LLMをマージして作成されたモデル

	マージ元のLLM・VLM（太字は日本語LLM）	開発元	ライセンス
Llama-3-EvoVLM-JP-v2<br>(v2)	Mantis-8B-SigLIP-Llama-3, Llama-3-ELYZA-JP-8B, Bunny-v1.1-Llama-3-8B-V	Sakana AI	Llama 3 Community License
AXCXEPT/Llama-3-EZO-VLM-1	- (Llama-3-EvoVLM-JP-v2 に対して追加学習)	Axcxept	Llama 3 Community License
EvoVLM-JP<br>(v1-7B)	Shisa Gamma 7B (v1), LLaVA-1.6-Mistral-7B	Sakana AI	Apache 2.0

テキストからの画像生成

汎用

	アーキテクチャ	学習画像/テキスト	開発元	ライセンス
CommonArt β<br>(commonart-beta)	PixArt-Σ	CommonCatalog-cc-by, Megalith-10M, Smithonian Open Access, ArtBench (CC-0 only)	AI Picasso	Apache 2.0
EvoSDXL-JP<br>(v1)	Stable Diffusion	- （Japanese Stable Diffusion XL を含む複数の画像生成モデルをマージ）	Sakana AI	Apache 2.0²⁰
Japanese Stable Diffusion XL<br>(japanese-stable-diffusion-xl)	Stable Diffusion	不明	Stability AI	STABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE
東北大Stable Diffusion<br>(base, refiner)	Stable Diffusion	WMT2023 Shared Task の日英対訳コーパス、laion2B-multi のキャプション約 1,300 万件	東北大<br>自然言語処理研究グループ	CreativeML OpenRAIL-M License
rinna Stable Diffusion<br>(japanese-stable-diffusion)	Stable Diffusion	LAION-5B データセットのうちキャプションが日本語のもの（画像約 1 億枚）	rinna	CreativeML OpenRAIL-M License

ドメイン特化型

	アーキテクチャ	ドメイン	開発元	ライセンス
Evo-Nishikie<br>(v1)	Stable Diffusion (ControlNet)	浮世絵	Sakana AI	Apache 2.0²⁰
Evo-Ukiyoe<br>(v1)	Stable Diffusion	浮世絵	Sakana AI	Apache 2.0²⁰

その他

	アーキテクチャ	学習画像/テキスト	開発元	ライセンス
LINEヤフーCLIP<br>(clip-japanese-base)	CLIP	CommonCrawl, CC12M, YFCC100M	LINEヤフー	Apache 2.0
リクルートCLIP<br>(japanese-clip-vit-b-32-roberta-base)	CLIP	laion2B-multi のキャプション約1億2000万件	リクルート	CC BY-4.0
Japanese Stable CLIP<br>(japanese-stable-clip-vit-l-16)	SigLIP	CC12M のキャプションを日本語に翻訳したもの、STAIR Captions	Stability AI	STABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE
rinna CLIP<br>(japanese-clip-vit-b-16)	CLIP	CC12M のキャプションを日本語に翻訳したもの	rinna	Apache 2.0
rinna CLOOB<br>(japanese-cloob-vit-b-16)	CLOOB	CC12M のキャプションを日本語に翻訳したもの	rinna	Apache 2.0
博報堂テクノロジーズCLIP<br>(base, deeper, wider)	CLIP	laion2B-multi のキャプション約1億2000万件	博報堂テクノロジーズ	CC BY-NC-SA 4.0

音声言語モデル (Speech-Language Models)

音声認識

	アーキテクチャ	学習コーパス	開発元	ライセンス
Kotoba-Whisper<br>(v1.0, v1.0-ggml, v1.0-faster, v1.1, bilingual-v1.0, bilingual-v1.0-ggml, bilingual-v1.0-faster, v2.0, v2.0-ggml, v2.0-faster, v2.1, v2.2)	Distil-Whisper	ReazonSpeech<br>(+ Multilingual LibriSpeech)	Kotoba Technologies	Apache 2.0
Nue ASR<br>(nue-asr)	Nue ASR<br>(HuBERT + LLM)	ReazonSpeech	rinna	Apache 2.0
ReazonSpeech<br>(espnet-v1, espnet-next, espnet-v2, nemo-v2)	ESPnet (Conformer-Transducer) または NeMo (FastConformer-RNNT)	ReazonSpeech	レアゾン・ホールディングス	Apache 2.0

その他

	アーキテクチャ	学習コーパス	開発元	ライセンス
Kotoba-Speech<br>(v0.1)	Transformer	不明	Kotoba Technologies	Apache 2.0
東大HuBERT<br>(base-jtube)	HuBERT	JTubeSpeech	東大猿渡・高道研	MIT
rinna HuBERT<br>(base, large)	HuBERT	ReazonSpeech	rinna	Apache 2.0
Reazon wav2vec 2.0<br>(base, large)	wav2vec 2.0	ReazonSpeech	レアゾン・ホールディングス	Apache 2.0
rinna wav2vec 2.0<br>(base)	wav2vec 2.0	ReazonSpeech	rinna	Apache 2.0

日本語LLM評価ベンチマーク/データセットまとめ

複合型ベンチマーク

	説明	開発元
Nejumi LLMリーダーボード3	LLM の日本語能力を言語理解能力、応用能力、アライメント（制御性、安全性を含む）の 3 つの観点で評価している。詳しくはこちらの記事を参照	Weights & Biases
日本語LLM評価	様々な LLM を日本語理解・生成タスク、日本語マルチターン対話タスク、英語理解・生成タスクの 3 種類から総合的に評価している。また、既存の LLM 評価ツールを統合・改修した評価スクリプトである swallow-evaluation を合わせて公開している。	Swallowプロジェクト

基本的な自然言語処理タスクの性能を測定するベンチマーク/データセット

	説明	開発元
オープン日本語LLMリーダーボード	llm-jp-eval を活用し、16種類のタスクで日本語の大規模言語モデルを評価している。	LLM-jp, Hugging Face
<a id="llm-jp-eval"></a> llm-jp-eval	複数のデータセットを横断して日本語 LLM を自動評価するツールである。<br>対応している全データセット一覧はこちらから確認できる（この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている）。	LLM-jp
JP Language Model Evaluation Harness	Stability AI による EleutherAI/lm-evaluation-harness のフォーク。複数のデータセットを横断して日本語 LLM を自動評価するツールである。<br>対応している全データセット一覧はこちらから確認できる（この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている）。<br>rinna による詳細な評価結果まとめがある: [rinna] Benchmark of Stability-AI/lm-evaluation-harness	Stability AI
JGLUE	GLUE ベンチマークの日本語版として構築されたベンチマーク。MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, JCommonsenseQA の 6 つのタスクを含む（JCoLA は東大大関研により作成）。各タスクの詳細はこちらやこちらを参照	早大河原研, ヤフー
<a id="jmmlu"></a> JMMLU	MMLU ベンチマークの日本語版として構築されたベンチマーク。自然科学・人文科学・社会科学の幅広い学術領域から 4 択問題を構成している。元の MMLU を翻訳しただけでなく、日本独自の文化的背景に基づく問題（日本問題）を新たに追加しているのが特徴である。	早大河原研

テキスト生成能力を測定するベンチマーク/データセット

	説明	開発元
<a id="jp-mt-bench"></a> Japanese MT-bench	マルチターン会話能力を問う MT-bench の日本語版。Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities の 8 つのカテゴリから 10 問ずつ、計 80 問が収録されている。なお、日本語版作成の際には、日本の文化に合うように質問内容に一部修正が加えられている。<br>GPT-4 による 10 段階の絶対評価を行うスクリプトも含まれている。	Stability AI
<a id="rakuda-benchmark"></a> Rakuda Benchmark	日本の地理、歴史、政治、社会に関する40問の自由質問に対してモデルに出力を行わせる。GPT-4 が同じ質問に対する2つのモデルの出力を比べ、どちらの答えが優れているかを判断することにより、モデルのランク付けを行う。	YuzuAI
<a id="elyza-tasks"></a> ELYZA-tasks-100	複雑な指示・タスクを含む100件の日本語データで、全てのデータに対して評価観点がアノテーションされている。<br>要約を修正し修正箇所を説明するタスク、具体的なエピソードから抽象的な教訓を述べるタスク、ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク、場合分けを必要とする複雑な算数のタスク、未知の言語からパターンを抽出し日本語訳する高度な推論を必要とするタスク、複数の指示を踏まえた上でyoutubeの対話を生成するタスク、架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスクなどが含まれている。	ELYZA
Japanese Vicuna QA Benchmark	MT-Bench の前身である vicuna-blog-eval の日本語版。一般、知識、ロールプレイ、常識、フェルミ推定、反実仮想、コーディング、数学、ライティングに関する 80 問の質問を収録している。また、GPT-4 による自動評価（勝率計算）のスクリプトも含まれている。リーダーボードはこちら	京大言語メディア研究室
<a id="tengu-bench"></a> Tengu-Bench	様々なカテゴリから成る 120 問の自由質問が収録されている。質問のカテゴリは以下の通り: 表の読み取り、論理パズル、アイデア生成、Function calling、長い文書要約（千トークン以上）、会話要約、長い文書のClosed QA（千トークン以上）、敬語、プロジェクト作成、数学、翻訳、抽出、倫理的制御、コスト見積、日本、雑談、ダジャレ、フォーマット、建設、ビジネス、法律判断、政治、架空の質問	Lightblue
Shaberi	Japanese MT-bench、Rakuda Benchmark、ELYZA-tasks-100、Tengu-Bench の評価をまとめて行うことができるフレームワーク。なお、Shisa.AI によるフォークも存在する	Lightblue

特定ドメインの性能を測定するベンチマーク/データセット

	説明	開発元
Japanese Language Model Financial Evaluation Harness	金融分野における日本語 LLM のベンチマーク。金融分野における感情分析タスク(chabsa)、証券分析における基礎知識タスク(cma_basics)、公認会計士試験における監査に関するタスク(cpa_audit)、ファイナンシャルプランナー試験の選択肢問題のタスク(fp2)、証券外務員試験の模擬試験タスク(security_sales_1)を含む。詳細はこちらを参照	Preferred Networks
pfmt-bench-fin-ja	金融分野における日本語 LLM の生成能力を測定するためのベンチマーク。	Preferred Networks
Stockmark Business Questions	市場動向、時事問題、社会課題、ビジネストレンドなどの知識を問う問題が50題収録されている。	ストックマーク
<a id="jmedllm"></a> JMED-LLM	日本語医療分野における LLM の評価用データセット。これまでに開発されてきた日本語の医療言語処理タスクを LLM ベンチマーク用にまとめている。	NAIST ソーシャル・コンピューティング研究室
JMedBench	日本語医療分野の LLM ベンチマーク。選択肢問題、機械翻訳、固有表現抽出、文書分類、文類似度計算の 5 種類、計 20 個のデータセットが収録されている（一部のデータセットは JMMLU の医療分野問題や JMED-LLM から借用されている）。また、JMedBench での評価を簡単に行うためのツール med-eval が開発されている。	NII 相澤研
Japanese Medical Language Model Evaluation Harness	ワンコマンドで実行可能な医療分野に特化したLLMの日英能力評価プログラム。	個人 (助田一晟)
karakuri-bench	日本語 LLM のカスタマーサポートにおける性能を測定するためのデータセット。	カラクリ

事実性・安全性を測定するベンチマーク/データセット

	説明	開発元
JTruthfulQA	LLM の事実性を評価するデータセット TruthfulQA の日本語版。迷信などの、一部の人々に信じられているが事実とは言えない事象に関する質問群と、日本固有の知識に関する質問群が、一から収集されている。	早大河原研
JCommonsenseMorality	日本語の常識道徳に関するデータセット。行為を表す文に対して、道徳的に間違っているか許容できるかの 2 値ラベルが割り当てられている。	北大言語メディア学研究室
JBBQ	社会性バイアスQAデータセット BBQ を、日本の文化・慣習を踏まえて翻訳、修正、問題追加を行い作成されたデータセット。	東大谷中研

論理推論能力を測定するベンチマーク/データセット

	説明	開発元
JFLD (Japanese Formal Logic Deduction)	日本語 LLM の演繹推論能力を問うデータセット（同著者らが提案している FLD (Formal Logic Deduction) の日本語版）。LLM が持つ知識と切り分けて評価を行うために、反実仮想的なサンプルから構成されているのが特徴である。	日立製作所
JHumanEval	英語の指示から Python コードの生成能力を評価するベンチマークである HumanEval の日本語版。日本語版を作成する際には、まず機械翻訳にかけたあと、人手での修正を行っている。	日本女子大倉光研

制約付きの生成能力を測定するベンチマーク/データセット

	説明	開発元
LCTG Bench	日本語 LLM の制御性ベンチマーク。出力のフォーマット、文字数、キーワード、NGワードの 4 つの観点から、LLM が制約を守って出力を行えているかを評価する。生成されたテキストの品質も合わせて評価する。	サイバーエージェント

埋め込みモデルのベンチマーク/データセット

	説明	開発元
JMTEB	MTEBの日本語版として作成されたベンチマーク。<br>文書クラスタリング、文書分類、文間類似度、文ペアラベル予測、文書抽出の5種類のタスクから構成されている（その後、リランキングタスクが新たに追加）。	SB Intuitions
JQaRA	日本語の文書抽出・リランキング精度評価のためのデータセット。1,667件の質問文それぞれに対し、候補となる100件のドキュメントが割り当てられており、そのうち1件以上が質問文に回答できる内容になっている。質問文は JAQKET を、候補のドキュメントは日本語 Wikipedia を用いている。	個人 (舘野祐一)
JaCWIR	Wikipedia 以外のドメインで文書抽出・リランキングの評価を行えることを目指して作成されたデータセット。5,000件の質問文それぞれに対し、その質問文が作成される元になった 1 件の Webページと、質問文とは関係のない 99 件の Web ページが割り当てられている。	個人 (舘野祐一)

視覚言語モデル (Vision-Language Models) のベンチマーク/データセット

	説明	開発元
JMMMU	MMMU ベンチマークの日本語版として構築されたベンチマーク。720 件の MMMU の翻訳版の問題と 600 件の日本文化特有の新規の問題から構成される。	東大相澤研
Heron VLM リーダーボード powered by nejumi@WandB	Japanese-Heron-Bench と LLaVA-Bench-In-the-Wild (Japanese) の評価結果をまとめている。	Turing, Weights & Biases
<a id="japanese-heron-bench"></a> Japanese-Heron-Bench	21 枚の画像に対して計 102 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。	Turing
JA-VLM-Bench-In-the-Wild	Sakana AI が EvoVLM-JP-v1-7B の評価のために独自に用意したデータセット。42 枚の画像に対して計 50 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。	Sakana AI
JA-Multi-Image-VQA	複数の画像に対する日本語での質疑応答能力を評価するデータセット。	Sakana AI
<a id="llava-bench-in-the-wild"></a> LLaVA-Bench-In-the-Wild (Japanese)	LLaVA-Bench-In-the-Wild を DeepL で日本語に訳したもの。24 枚の画像に対して計 60 問の質問が割り当てられている。	Turing
LLaVA-Bench (COCO) Japanese	LLaVA の評価に使われた LLaVA-Bench (COCO) データセットを DeepL で日本語に訳したもの。30 枚の画像に対して各 3 種類の質問が割り当てられている。	Turing

各モデル・アーキテクチャの原論文

LLMの学習手法の原論文

コントリビューター

このプロジェクトに貢献してくれているコントリビューターのみなさんです！

引用

このリポジトリの要約はプレプリントとしても公開されています: Exploring Open Large Language Models for the Japanese Language: A Practical Guide

このリポジトリについて言及する場合は、以下の通り引用してください:

@article{awesomeJapanese2024,
    title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
    author={Kaito Sugimoto},
    doi={10.51094/jxiv.682},
    journal={Jxiv preprint},
    year={2024}
}

一部アーキテクチャの変更を加えている。詳しくは以下を参照: 1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習 ↩
詳細は以下の記事を参照: 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など, 大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー ↩ ↩²
ただし、モデル高速化のため本家の Llama に対してアーキテクチャの変更を加えている。詳しくは以下を参照: PLaMo-13Bを公開しました ↩
詳細は明記されていないが、プレスリリースには以下のような記述がある: 『学習データには、オープンデータセットに加え、Stability AI Japanが作成した独自のデータセットや、EleutherAI Polyglot project の日本語チーム及び Stable Community Japan のメンバーの協力のもとで作成したデータが含まれています。』 ↩
通常の左から右に単語を予測する代わりに、右から左に単語を予測するように訓練された言語モデルの評価を行った研究である。通常方向の言語モデルと逆方向の言語モデルの両方が公開されている。 ↩
Instruction Tuning を行う前に、Llama 3 Instruct と Llama 3 Base の差分の Chat Vector を加えている。 ↩ ↩²
Instruction Tuning を行った後に、Llama 3 Instruct と Llama 3 Base の差分の Chat Vector を加えている。 ↩ ↩²
ただし、KARAKURI LM を商用利用したい場合は、開発元であるカラクリ株式会社に直接連絡が必要であるとしている。 ↩
Instruction Tuning において、GPT-3.5, GPT-4 等の OpenAI のモデルで生成されたデータを使って学習しているため、OpenAI の規約に違反している可能性がある。 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰
ORPO を行う前に、Gemma 2 Instruct と Gemma 2 Base の差分の Chat Vector を加えている。 ↩
○: HuggingFace の Model Hub にモデルがアップロードされており、AutoModel.from_pretrained() 等ですぐ読み込める。 △: Model Hub にはモデルがアップロードされていないが、HuggingFace (transformers, 旧 pytorch-transformers) の形式に対応している。✕: モデルがHuggingFaceに対応していない。 ↩
様々な形態素解析器とサブワード化手法の組み合わせを試した研究である。全ての組み合わせのモデルを掲載するのは大変なので、ここでは実験で最も平均のタスク性能が高い Juman++ + BPE のモデルを代表として掲載している。 ↩
ただし、最大系列長が 2048 に拡張されているほか、元の BERT に対して様々なアーキテクチャの変更が施されている。詳しくは HuggingFace リポジトリの README を参照。 ↩
nlp-waseda/roberta-base-japanese 及び nlp-waseda/roberta-large-japanese はモデル入力の最大トークン長を128で事前学習しているが、nlp-waseda/roberta-large-japanese-seq512 は512で事前学習している ↩
ただし、最大系列長が通常の 512 から 1282 まで拡張されており、より長い入力文を扱うことができる ↩
small の方は日本語 Wikipedia と日本語金融コーパスを合わせてスクラッチ学習しているが、base の方は東北大BERTに日本語金融コーパスを追加学習しているという違いがある ↩
万病WordPieceモデルは MeCab (IPA辞書+万病辞書) で単語分割した後 WordPiece でサブワード化するモデル、SentencePieceモデルは単語分割せずに直接 Unigram でサブワード化するモデル ↩
それぞれのモデルの詳細は作者らの論文の第4章を参照。なお、SC-2M-wiki モデルは Wikipedia でのみ事前学習されているため、厳密にはドメイン特化型モデルではない。 ↩
埋め込みモデルの分類は Dense Text Retrieval based on Pretrained Language Models: A Survey (Zhao+, 2022) を参考に行った。Bi-Encoder は 2つの入力を個別にモデルに入力し、それぞれベクトル化した上で、それらの内積やコサイン類似度を入力の近さとして定式化するアーキテクチャである。それに対し、Cross-Encoder は 2 つの入力を組み合わせたものをモデルに入力し、モデル内部で近さを直接計算するアーキテクチャである。情報抽出の分野では、Cross-Encoder の方が計算コストがかかるが、入力の近さをよりきめ細かくモデルが計算することが期待されるため、抽出結果の順序を再検討するリランカーとして用いられることも多い。なお、Bi-Encoder の中でも、入力を単一のベクトルではなく（トークンごとなどの）複数のベクトルとして表現するタイプのもの（例: ColBERT）があるため、Single-representation bi-encoders と Multi-representation bi-encoders にさらに細分化している。 ↩
ただし、研究および教育を目的とした利用を念頭に置くよう呼びかけている。また、マージ元のモデルのいくつかのライセンスは Apache 2.0 ではない点にも注意すること。 ↩ ↩² ↩³

Awesome

日本語LLMまとめ

テキスト生成に主に使うモデル

フルスクラッチ学習モデル

汎用

ドメイン特化型

海外モデルに日本語で継続事前学習を行ったモデル

汎用

ドメイン特化型

海外モデルに日本語で事後学習のみ行ったモデル

汎用

ドメイン特化型

複数のLLMをマージして作成されたモデル

APIとして提供されているモデル

入力テキストの処理に主に使うモデル

汎用

ドメイン特化型

埋め込み (Embeddings) 作成に特化したモデル 19

Bi-Encoders

Single-representation bi-encoders

Multi-representation bi-encoders

Cross-Encoders

視覚言語モデル (Vision-Language Models)

画像+テキストからのテキスト生成

スクラッチ学習モデル

海外モデルに日本語で追加学習を行ったモデル

複数のVLM・LLMをマージして作成されたモデル

テキストからの画像生成

汎用

ドメイン特化型

その他

音声言語モデル (Speech-Language Models)

音声認識

その他

日本語LLM評価ベンチマーク/データセットまとめ

複合型ベンチマーク

基本的な自然言語処理タスクの性能を測定するベンチマーク/データセット

テキスト生成能力を測定するベンチマーク/データセット

特定ドメインの性能を測定するベンチマーク/データセット

事実性・安全性を測定するベンチマーク/データセット

論理推論能力を測定するベンチマーク/データセット

制約付きの生成能力を測定するベンチマーク/データセット

埋め込みモデルのベンチマーク/データセット

視覚言語モデル (Vision-Language Models) のベンチマーク/データセット

各モデル・アーキテクチャの原論文

LLMの学習手法の原論文

コントリビューター

引用

Footnotes

埋め込み (Embeddings) 作成に特化したモデル ¹⁹