Awesome

开源开放基础大模型

旨在记录开源开发大模型发展情况，随时更新，欢迎在Issues中提供提供线索和素材

使用数据请注明来源：微信公众号：走向未来 和 仓库：https://github.com/wgwang/awesome-open-foundation-models

Awesome family related to LLMS includes:

大模型相关的Awesome系列包括：

大模型评测数据集： https://github.com/wgwang/awesome-LLM-benchmarks
中国大模型列表： https://github.com/wgwang/awesome-LLMs-In-China
开源开放基础大模型列表： https://github.com/wgwang/awesome-open-foundation-models

微信扫码关注我的微信公众号：走向未来，分享有关大模型、AGI、知识图谱、深度学习、强化学习、计算机视觉、自然语言处理等等与人工智能有关的内容。

Star一下，举手之劳！

开源开放的基础大模型列表

国内开源大模型两大霸主
- Qwen
- DeepSeeker
- 两个都在杭州，杭州上大分！
国外开源大模型两大霸主
- LLaMA 美国
- Mistral 欧洲

序号	名称	参数规模	数据规模	发布时间	说明
1	LLaMA-2	7B,13B,34B,70B	2T	2023-07-18	可商用
2	Falcon	7B,40B,180B	3.5T	2023-09-06	数据集 RefinedWeb
3	baichuan-2	7B,13B	2.6T	2023-09-06	baichuan-1
4	InternLM	7B,20B	2.3T		开放，商用需授权
5	BLOOM	3B,7.1B,176B	366B		详细介绍
6	GALACTICA	6.7B,30B,120B	106B		开放的科学文本和数据
7	LLaMA-1	7B,13B,30B,65B	1.4T	2023-02-24	详细介绍
8	MOSS-moon	16B	700B		6.67x1022 FLOPs
9	ChatGLM3	6B	1.4T	2023-10-25
10	StableLM	3B,7B	800B
11	RedPajama-INCITE	3B,7B	1T
12	GPT-NeoX	20B	3.15M		800GB的The Pile数据集
13	OpenLLaMA	3B,7B,13B	1T
14	MPT	7B,30B	1T
15	Pythia	2.8B,6.9B,12B	300B
16	XGen	7B	1.5T
17	OPT	6.7B,13B,30B,66B,175B	180B
18	Qwen-1	7B,14B,72B	2.4T,3.0T,3.0T
19	XVERSE	13B,65B	1.4T,2.6T
20	Aquila2	7B,34B	2T
21	Prithvi				IBM+NASA,地理空间，100M（图片）
22	Skywork	13B	3.2T	2023-10-22	昆仑万维·天工
23	Deepseek Coder	1.3B,6.7B,33B	2T		87% code and 13% 中英文文本
24	Aquila	7B		2023-06-08	悟道·天鹰
25	Yi	6B,34B	3T	2023-11-04	零一万物
26	Mistral	7B			欧洲
27	Yuan-2	2B,51B,102B	288B	2023-12-21	源
28	Mistral MoE	46.7B		2023-12-11	7BX8 MoE,12.9B/46.7B
29	BlueLM	7B	2.6T	2023-10-16	https://github.com/vivo-ai-lab/BlueLM
30	YAYI 2	30B	2.65T	2023-12-15	https://github.com/wenge-research/YAYI2
31	CodeShell	7B	0.5T	2023-09-22	https://github.com/WisdomShell/codeshell
32	DeepSeek-V2	236B	8.1T	2024-05-06	MoE 21B/236B，160Experts，2Activate
33	LLaMA-3	8B,70B	15T	2024-04-18
34	QWen-1.5	0.5B,1.8B,4B,7B,14B,32B,72B	2.4T,2.4T,2.4T,4T,4T,3T,3T	2024-02-06
35	QWen-1.5-110B	110B	2.2T	2024-04-24
36	DBRX	132B	12T	2024-03-27	MOE 36B/132B, 4/16experts
37	Gemma-1	7B,2B	6T	2024-02-20	终端设备
38	Yi-1.5	6B,9B,34B	3.5T	2024-05-13	零一万物，在Yi之上用了500B 语料增量训练得到
39	Yi-VL	6B,34B		2024-01-18	Clip ViT-H/14+Yi-6/34B-Chat,100M图文对
40	Hunyuan-DiT	1.5B		2024-05-13	腾讯混元文生图
41	Command-R+	104B	4T	2024-04-03	Focus RAG
42	Mistral-8X22B	141B		2024-4-17	8X22B MOE, 39B/141B
43	Arctic	480B	3.5T	2024-04-22	Dense(10B)-MoE(128X3.66B), 17B/480B，3阶段训练，1T+1.5T+1T tokens
44	Grok-1	314B		2024-03-17	MoE 8 Expert
45	InternLM2	7B,20B	2.3T	2023-09-18
46	stableLM-2	12B	2T	2024-03-21
47	Nemotron-4	340B	9T	2024-06-14
48	Qwen-2	0.5B,1.5B,7B,57B,72B	7T	2024-05-23	57B是个MOE，64E选8的模型
49	Skywork-MoE	146B		2024-06-03	16EX13B，A:22B
50	Gemma-2	9B,27B	8T,13T	2024-06-27
51	Deepseek-Coder-V2	16B,236B	10.2T	2024-06-17	MoE
52	GLM-4	9B	10T	2024-06-05
53	LLaMA-3.1	8B,70B,405B	15T	2024-07-23
54	XVERSE-MoE	255.4B		2024-09-10
55	Pixtral	12B		2024-09-10	多模态

非基础大模型

WizardLM，WizardMath，WizardCoder
Alpaca
Vicuna
Guanaco
CodeLLaMA
- 7B,13B,34B，基于LLaMA2，增加了650B左右的代码词元进行增量训练和微调

模型架构

GPTQ
LLaMA

微信公众号：走向未来

欢迎扫码关注微信公众：走向未来，公众号专注于分享AGI、大模型、知识图谱、深度学习、强化学习等技术、系统架构、应用场景和案例等内容。

珠峰书

珠峰书《知识图谱：认知智能理论与实战》一书全面介绍了知识图谱的构建技术、存储技术和应用技术、Transformer、图神经网络等内容，欢迎购买。具体来说，包括：

知识图谱模式设计、知识抽取、图数据库、知识计算、知识推理、知识问答、知识推荐等全方面的内容
详细介绍了Transformer模型细节和实现方法，是大模型的基础技术
国内首本提到向量数据库的书籍
简要介绍了多模态知识融合的内容，书中以“月亮”为例，提出应当把图片的月亮、各种不同语言的文本月亮和和月亮的读音等，都应当融合到同一个知识点中。这正是多模态大模型所做的。
其他一些关于神经科学、脑科学和哲学中对智能的思考