Home

Awesome

Chinese-LLaMA-Alpaca-3项目启动!

🇨🇳中文 | 🌐English | 📖文档/Docs | ❓提问/Issues | 💬讨论/Discussions | ⚔️竞技场/Arena

<p align="center"> <br> <img src="./pics/banner.png" width="800"/> <br> </p> <p align="center"> <img alt="GitHub" src="https://img.shields.io/github/license/ymcui/Chinese-LLaMA-Alpaca-2.svg?color=blue&style=flat-square"> <img alt="GitHub release (latest by date)" src="https://img.shields.io/github/v/release/ymcui/Chinese-LLaMA-Alpaca-2"> <img alt="GitHub top language" src="https://img.shields.io/github/languages/top/ymcui/Chinese-LLaMA-Alpaca-2"> <a href="https://app.codacy.com/gh/ymcui/Chinese-LLaMA-Alpaca-2/dashboard?utm_source=gh&utm_medium=referral&utm_content=&utm_campaign=Badge_grade"><img src="https://app.codacy.com/project/badge/Grade/1710faac5e634acaabfc26b0a778cdde"/></a> </p>

本项目基于Meta发布的可商用大模型Llama-2开发,是中文LLaMA&Alpaca大模型的第二期项目,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持FlashAttention-2训练。标准版模型支持4K上下文长度,长上下文版模型支持16K、64k上下文长度RLHF系列模型为标准版模型基础上进行人类偏好对齐精调,相比标准版模型在正确价值观体现方面获得了显著性能提升。

本项目主要内容

已开源的模型


中文LLaMA&Alpaca大模型 | 多模态中文LLaMA&Alpaca大模型 | 多模态VLE | 中文MiniRBT | 中文LERT | 中英文PERT | 中文MacBERT | 中文ELECTRA | 中文XLNet | 中文BERT | 知识蒸馏工具TextBrewer | 模型裁剪工具TextPruner | 蒸馏裁剪一体化GRAIN

新闻

[2024/04/30] Chinese-LLaMA-Alpaca-3 已正式发布,开源基于Llama-3的Llama-3-Chinese-8B和Llama-3-Chinese-8B-Instruct,推荐所有一期、二期项目用户升级至三代模型,请参阅:https://github.com/ymcui/Chinese-LLaMA-Alpaca-3

[2024/03/27] 本项目已入驻机器之心SOTA!模型平台,欢迎关注:https://sota.jiqizhixin.com/project/chinese-llama-alpaca-2

[2024/01/23] 添加新版GGUF模型(imatrix量化)、AWQ量化模型,支持vLLM下加载YaRN长上下文模型。详情查看📚 v4.1版本发布日志

[2023/12/29] 发布长上下文模型Chinese-LLaMA-2-7B-64K和Chinese-Alpaca-2-7B-64K,同时发布经过人类偏好对齐(RLHF)的Chinese-Alpaca-2-RLHF(1.3B/7B)。详情查看📚 v4.0版本发布日志

[2023/09/01] 发布长上下文模型Chinese-Alpaca-2-7B-16K和Chinese-Alpaca-2-13B-16K,该模型可直接应用于下游任务,例如privateGPT等。详情查看📚 v3.1版本发布日志

[2023/08/25] 发布长上下文模型Chinese-LLaMA-2-7B-16K和Chinese-LLaMA-2-13B-16K,支持16K上下文,并可通过NTK方法进一步扩展至24K+。详情查看📚 v3.0版本发布日志

[2023/08/14] 发布Chinese-LLaMA-2-13B和Chinese-Alpaca-2-13B,添加text-generation-webui/LangChain/privateGPT支持,添加CFG Sampling解码方法等。详情查看📚 v2.0版本发布日志

[2023/08/02] 添加FlashAttention-2训练支持,基于vLLM的推理加速支持,提供长回复系统提示语模板等。详情查看📚 v1.1版本发布日志

[2023/07/31] 正式发布Chinese-LLaMA-2-7B(基座模型),使用120G中文语料增量训练(与一代Plus系列相同);进一步通过5M条指令数据精调(相比一代略微增加),得到Chinese-Alpaca-2-7B(指令/chat模型)。详情查看📚 v1.0版本发布日志

[2023/07/19] 🚀启动中文LLaMA-2、Alpaca-2开源大模型项目

内容导引

章节描述
💁🏻‍♂️模型简介简要介绍本项目相关模型的技术特点
⏬模型下载中文LLaMA-2、Alpaca-2大模型下载地址
💻推理与部署介绍了如何对模型进行量化并使用个人电脑部署并体验大模型
💯系统效果介绍了模型在部分任务上的效果
📝训练与精调介绍了如何训练和精调中文LLaMA-2、Alpaca-2大模型
❓常见问题一些常见问题的回复

模型简介

本项目推出了基于Llama-2的中文LLaMA-2以及Alpaca-2系列模型,相比一期项目其主要特点如下:

📖 经过优化的中文词表

⚡ 基于FlashAttention-2的高效注意力

🚄 基于PI和YaRN的超长上下文扩展技术

🤖 简化的中英双语系统提示语

👮 人类偏好对齐

下图展示了本项目以及一期项目推出的所有大模型之间的关系。

模型下载

模型选择指引

以下是中文LLaMA-2和Alpaca-2模型的对比以及建议使用场景。如需聊天交互,请选择Alpaca而不是LLaMA。

对比项中文LLaMA-2中文Alpaca-2
模型类型基座模型指令/Chat模型(类ChatGPT)
已开源大小1.3B、7B、13B1.3B、7B、13B
训练类型Causal-LM (CLM)指令精调
训练方式7B、13B:LoRA + 全量emb/lm-head<br/>1.3B:全量7B、13B:LoRA + 全量emb/lm-head<br/>1.3B:全量
基于什么模型训练原版Llama-2(非chat版)中文LLaMA-2
训练语料无标注通用语料(120G纯文本)有标注指令数据(500万条)
词表大小<sup>[1]</sup>55,29655,296
上下文长度<sup>[2]</sup>标准版:4K(12K-18K)<br/>长上下文版(PI):16K(24K-32K)<br/>长上下文版(YaRN):64K标准版:4K(12K-18K)<br/>长上下文版(PI):16K(24K-32K)<br/>长上下文版(YaRN):64K
输入模板不需要需要套用特定模板<sup>[3]</sup>,类似Llama-2-Chat
适用场景文本续写:给定上文,让模型生成下文指令理解:问答、写作、聊天、交互等
不适用场景指令理解 、多轮聊天等文本无限制自由生成
偏好对齐RLHF版本(1.3B、7B)

[!NOTE] [1] 本项目一代模型和二代模型的词表不同,请勿混用。二代LLaMA和Alpaca的词表相同。</br> [2] 括号内表示基于NTK上下文扩展支持的最大长度。</br> [3] Alpaca-2采用了Llama-2-chat系列模板(格式相同,提示语不同),而不是一代Alpaca的模板,请勿混用。</br> [4] 不建议单独使用1.3B模型,而是通过投机采样搭配更大的模型(7B、13B)使用。</br>

完整模型下载

以下是完整版模型,直接下载即可使用,无需其他合并步骤。推荐网络带宽充足的用户。

模型名称类型大小下载地址GGUF
Chinese-LLaMA-2-13B基座模型24.7 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope][🤗HF]
Chinese-LLaMA-2-7B基座模型12.9 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope][🤗HF]
Chinese-LLaMA-2-1.3B基座模型2.4 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope][🤗HF]
Chinese-Alpaca-2-13B指令模型24.7 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope][🤗HF]
Chinese-Alpaca-2-7B指令模型12.9 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope][🤗HF]
Chinese-Alpaca-2-1.3B指令模型2.4 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope][🤗HF]

长上下文版模型

以下是长上下文版模型,推荐以长文本为主的下游任务使用,否则建议使用上述标准版。

模型名称类型大小下载地址GGUF
Chinese-LLaMA-2-7B-64K 🆕基座模型12.9 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope][🤗HF]
Chinese-Alpaca-2-7B-64K 🆕指令模型12.9 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope][🤗HF]
Chinese-LLaMA-2-13B-16K基座模型24.7 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope][🤗HF]
Chinese-LLaMA-2-7B-16K基座模型12.9 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope][🤗HF]
Chinese-Alpaca-2-13B-16K指令模型24.7 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope][🤗HF]
Chinese-Alpaca-2-7B-16K指令模型12.9 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope][🤗HF]

RLHF版模型

以下是人类偏好对齐版模型,对涉及法律、道德的问题较标准版有更优的价值导向。

模型名称类型大小下载地址GGUF
Chinese-Alpaca-2-7B-RLHF 🆕指令模型12.9 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope][🤗HF]
Chinese-Alpaca-2-1.3B-RLHF 🆕指令模型2.4 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope][🤗HF]

AWQ版模型

AWQ(Activation-aware Weight Quantization)是一种高效的模型量化方案,目前可兼容🤗transformers、llama.cpp等主流框架。

本项目模型的AWQ预搜索结果可通过以下链接获取:https://huggingface.co/hfl/chinese-llama-alpaca-2-awq

LoRA模型下载

以下是LoRA模型(含emb/lm-head),与上述完整模型一一对应。需要注意的是LoRA模型无法直接使用,必须按照教程与重构模型进行合并。推荐网络带宽不足,手头有原版Llama-2且需要轻量下载的用户。

模型名称类型合并所需基模型大小LoRA下载地址
Chinese-LLaMA-2-LoRA-13B基座模型Llama-2-13B-hf1.5 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope]
Chinese-LLaMA-2-LoRA-7B基座模型Llama-2-7B-hf1.1 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope]
Chinese-Alpaca-2-LoRA-13B指令模型Llama-2-13B-hf1.5 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope]
Chinese-Alpaca-2-LoRA-7B指令模型Llama-2-7B-hf1.1 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope]

以下是长上下文版模型,推荐以长文本为主的下游任务使用,否则建议使用上述标准版。

模型名称类型合并所需基模型大小LoRA下载地址
Chinese-LLaMA-2-LoRA-7B-64K 🆕基座模型Llama-2-7B-hf1.1 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope]
Chinese-Alpaca-2-LoRA-7B-64K 🆕指令模型Llama-2-7B-hf1.1 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope]
Chinese-LLaMA-2-LoRA-13B-16K基座模型Llama-2-13B-hf1.5 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope]
Chinese-LLaMA-2-LoRA-7B-16K基座模型Llama-2-7B-hf1.1 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope]
Chinese-Alpaca-2-LoRA-13B-16K指令模型Llama-2-13B-hf1.5 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope]
Chinese-Alpaca-2-LoRA-7B-16K指令模型Llama-2-7B-hf1.1 GB[Baidu] [Google] <br/>[🤗HF] [🤖ModelScope]

[!IMPORTANT] LoRA模型无法单独使用,必须与原版Llama-2进行合并才能转为完整模型。请通过以下方法对模型进行合并。

推理与部署

本项目中的相关模型主要支持以下量化、推理和部署方式,具体内容请参考对应教程。

工具特点CPUGPU量化GUIAPIvLLM<sup>§</sup>16K<sup></sup>64K<sup></sup>投机采样教程
llama.cpp丰富的量化选项和高效本地推理link
🤗Transformers原生transformers推理接口link
Colab Demo在Colab中启动交互界面link
仿OpenAI API调用仿OpenAI API接口的服务器Demolink
text-generation-webui前端Web UI界面的部署方式<sup></sup>link
LangChain适合二次开发的大模型应用开源框架<sup></sup><sup></sup>link
privateGPT基于LangChain的多文档本地问答框架link

[!NOTE] <sup></sup> 工具支持该特性,但教程中未实现,详细说明请参考对应官方文档<br/> <sup></sup> 指是否支持长上下文版本模型(需要第三方库支持自定义RoPE)<br/> <sup>§</sup> vLLM后端不支持长上下文版本模型<br/>

系统效果

为了评测相关模型的效果,本项目分别进行了生成效果评测和客观效果评测(NLU类),从不同角度对大模型进行评估。需要注意的是,综合评估大模型能力仍然是亟待解决的重要课题,单个数据集的结果并不能综合评估模型性能。推荐用户在自己关注的任务上进行测试,选择适配相关任务的模型。

生成效果评测

为了更加直观地了解模型的生成效果,本项目仿照Fastchat Chatbot Arena推出了模型在线对战平台,可浏览和评测模型回复质量。对战平台提供了胜率、Elo评分等评测指标,并且可以查看两两模型的对战胜率等结果。题库来自于一期项目人工制作的200题,以及在此基础上额外增加的题目。生成回复具有随机性,受解码超参、随机种子等因素影响,因此相关评测并非绝对严谨,结果仅供晾晒参考,欢迎自行体验。部分生成样例请查看examples目录

⚔️ 模型竞技场:http://llm-arena.ymcui.com

系统对战胜率(无平局) ↓Elo评分
Chinese-Alpaca-2-13B-16K86.84%1580
Chinese-Alpaca-2-13B72.01%1579
Chinese-Alpaca-Pro-33B64.87%1548
Chinese-Alpaca-2-7B64.11%1572
Chinese-Alpaca-Pro-7B62.05%1500
Chinese-Alpaca-2-7B-16K61.67%1540
Chinese-Alpaca-Pro-13B61.26%1567
Chinese-Alpaca-Plus-33B31.29%1401
Chinese-Alpaca-Plus-13B23.43%1329
Chinese-Alpaca-Plus-7B20.92%1379

[!NOTE] 以上结果截至2023年9月1日。最新结果请进入⚔️竞技场进行查看。

客观效果评测:C-Eval

C-Eval是一个全面的中文基础模型评估套件,其中验证集和测试集分别包含1.3K和12.3K个选择题,涵盖52个学科。实验结果以“zero-shot / 5-shot”进行呈现。C-Eval推理代码请参考本项目:📖GitHub Wiki

LLaMA ModelsValidTestAlpaca ModelsValidTest
Chinese-LLaMA-2-13B40.6 / 42.738.0 / 41.6Chinese-Alpaca-2-13B44.3 / 45.942.6 / 44.0
Chinese-LLaMA-2-7B28.2 / 36.030.3 / 34.2Chinese-Alpaca-2-7B41.3 / 42.940.3 / 39.5
Chinese-LLaMA-Plus-33B37.4 / 40.035.7 / 38.3Chinese-Alpaca-Plus-33B46.5 / 46.344.9 / 43.5
Chinese-LLaMA-Plus-13B27.3 / 34.027.8 / 33.3Chinese-Alpaca-Plus-13B43.3 / 42.441.5 / 39.9
Chinese-LLaMA-Plus-7B27.3 / 28.326.9 / 28.4Chinese-Alpaca-Plus-7B36.7 / 32.936.4 / 32.3

客观效果评测:CMMLU

CMMLU是另一个综合性中文评测数据集,专门用于评估语言模型在中文语境下的知识和推理能力,涵盖了从基础学科到高级专业水平的67个主题,共计11.5K个选择题。CMMLU推理代码请参考本项目:📖GitHub Wiki

LLaMA ModelsTest (0/few-shot)Alpaca ModelsTest (0/few-shot)
Chinese-LLaMA-2-13B38.9 / 42.5Chinese-Alpaca-2-13B43.2 / 45.5
Chinese-LLaMA-2-7B27.9 / 34.1Chinese-Alpaca-2-7B40.0 / 41.8
Chinese-LLaMA-Plus-33B35.2 / 38.8Chinese-Alpaca-Plus-33B46.6 / 45.3
Chinese-LLaMA-Plus-13B29.6 / 34.0Chinese-Alpaca-Plus-13B40.6 / 39.9
Chinese-LLaMA-Plus-7B25.4 / 26.3Chinese-Alpaca-Plus-7B36.8 / 32.6

长上下文版模型评测

LongBench是一个大模型长文本理解能力的评测基准,由6大类、20个不同的任务组成,多数任务的平均长度在5K-15K之间,共包含约4.75K条测试数据。以下是本项目长上下文版模型在该中文任务(含代码任务)上的评测效果。LongBench推理代码请参考本项目:📖GitHub Wiki

Models单文档QA多文档QA摘要Few-shot学习代码补全合成任务Avg
Chinese-Alpaca-2-7B-64K44.728.114.439.044.65.029.3
Chinese-LLaMA-2-7B-64K27.216.46.533.07.85.016.0
Chinese-Alpaca-2-13B-16K47.926.713.022.346.621.529.7
Chinese-Alpaca-2-13B38.420.011.917.346.58.023.7
Chinese-Alpaca-2-7B-16K46.423.314.329.049.69.028.6
Chinese-Alpaca-2-7B34.017.411.821.350.34.523.2
Chinese-LLaMA-2-13B-16K36.717.73.129.813.83.017.3
Chinese-LLaMA-2-13B28.314.44.616.310.45.413.2
Chinese-LLaMA-2-7B-16K33.215.96.523.510.35.315.8
Chinese-LLaMA-2-7B19.013.96.411.011.04.711.0

量化效果评测

以Chinese-LLaMA-2-7B为例,对比不同精度下的模型大小、PPL(困惑度)、C-Eval效果,方便用户了解量化精度损失。PPL以4K上下文大小计算,C-Eval汇报的是valid集合上zero-shot和5-shot结果。

精度模型大小PPLC-Eval
FP1612.9 GB9.37328.2 / 36.0
8-bit量化6.8 GB9.47626.8 / 35.4
4-bit量化3.7 GB10.13225.5 / 32.8

特别地,以下是在llama.cpp下不同量化方法的评测数据,供用户参考,速度以ms/tok计,测试设备为M1 Max。具体细节见📖GitHub Wiki

llama.cppF16Q2_KQ3_KQ4_0Q4_1Q4_KQ5_0Q5_1Q5_KQ6_KQ8_0
PPL9.12811.1079.5769.4769.5769.2409.1569.2139.1689.1339.129
Size12.91G2.41G3.18G3.69G4.08G3.92G4.47G4.86G4.59G5.30G6.81G
CPU Speed11742513944434851505465
GPU Speed531921171820xx2526x

投机采样加速效果评测

通过投机采样方法并借助Chinese-LLaMA-2-1.3B和Chinese-Alpaca-2-1.3B,可以分别加速7B、13B的LLaMA和Alpaca模型的推理速度。以下是使用投机采样脚本在1*A40-48G上解码生成效果评测中的问题测得的平均速度(速度以ms/token计,模型均为fp16精度),供用户参考。详细说明见📖GitHub Wiki

草稿模型草稿模型速度目标模型目标模型速度投机采样速度(加速比)
Chinese-LLaMA-2-1.3B7.6Chinese-LLaMA-2-7B49.336.0(1.37x)
Chinese-LLaMA-2-1.3B7.6Chinese-LLaMA-2-13B66.047.1(1.40x)
Chinese-Alpaca-2-1.3B8.1Chinese-Alpaca-2-7B50.234.9(1.44x)
Chinese-Alpaca-2-1.3B8.2Chinese-Alpaca-2-13B67.041.6(1.61x)

人类偏好对齐(RLHF)版本评测

对齐水平

为评估中文模型与人类价值偏好对齐程度,我们自行构建了评测数据集,覆盖了道德、色情、毒品、暴力等人类价值偏好重点关注的多个方面。实验结果以价值体现正确率进行呈现(体现正确价值观题目数 / 总题数)。

Alpaca ModelsAccuracyAlpaca ModelsAccuracy
Chinese-Alpaca-2-1.3B79.3%Chinese-Alpaca-2-7B88.3%
Chinese-Alpaca-2-1.3B-RLHF95.8%Chinese-Alpaca-2-7B-RLHF97.5%

客观效果评测:C-Eval & CMMLU

Alpaca ModelsC-Eval (0/few-shot)CMMLU (0/few-shot)
Chinese-Alpaca-2-1.3B23.8 / 26.824.8 / 25.1
Chinese-Alpaca-2-7B42.1 / 41.040.0 / 41.8
Chinese-Alpaca-2-1.3B-RLHF23.6 / 27.124.9 / 25.0
Chinese-Alpaca-2-7B-RLHF40.6 / 41.239.5 / 41.0

训练与精调

预训练

指令精调

RLHF精调

常见问题

请在提Issue前务必先查看FAQ中是否已存在解决方案。具体问题和解答请参考本项目 📖GitHub Wiki

问题1:本项目和一期项目的区别?
问题2:模型能否商用?
问题3:接受第三方Pull Request吗?
问题4:为什么不对模型做全量预训练而是用LoRA?
问题5:二代模型支不支持某些支持一代LLaMA的工具?
问题6:Chinese-Alpaca-2是Llama-2-Chat训练得到的吗?
问题7:为什么24G显存微调Chinese-Alpaca-2-7B会OOM?
问题8:可以使用16K长上下文版模型替代标准版模型吗?
问题9:如何解读第三方公开榜单的结果?
问题10:会出34B或者70B级别的模型吗?
问题11:为什么长上下文版模型是16K,不是32K或者100K?
问题12:为什么Alpaca模型会回复说自己是ChatGPT?
问题13:为什么pt_lora_model或者sft_lora_model下的adapter_model.bin只有几百k?

引用

如果您使用了本项目的相关资源,请参考引用本项目的技术报告:https://arxiv.org/abs/2304.08177

@article{Chinese-LLaMA-Alpaca,
    title={Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca},
    author={Cui, Yiming and Yang, Ziqing and Yao, Xin},
    journal={arXiv preprint arXiv:2304.08177},
    url={https://arxiv.org/abs/2304.08177},
    year={2023}
}

致谢

本项目主要基于以下开源项目二次开发,在此对相关项目和研究开发人员表示感谢。

同时感谢Chinese-LLaMA-Alpaca(一期项目)的contributor以及关联项目和人员

免责声明

本项目基于由Meta发布的Llama-2模型进行开发,使用过程中请严格遵守Llama-2的开源许可协议。如果涉及使用第三方代码,请务必遵从相关的开源许可协议。模型生成的内容可能会因为计算方法、随机因素以及量化精度损失等影响其准确性,因此,本项目不对模型输出的准确性提供任何保证,也不会对任何因使用相关资源和输出结果产生的损失承担责任。如果将本项目的相关模型用于商业用途,开发者应遵守当地的法律法规,确保模型输出内容的合规性,本项目不对任何由此衍生的产品或服务承担责任。

<details> <summary><b>局限性声明</b></summary>

虽然本项目中的模型具备一定的中文理解和生成能力,但也存在局限性,包括但不限于:

</details>

问题反馈

如有疑问,请在GitHub Issue中提交。礼貌地提出问题,构建和谐的讨论社区。