Home

Awesome

<div align="center"> <h1> XVERSE-MoE-A36B </h1> </div> <p align="center"> <a href="https://huggingface.co/xverse">🤗 Hugging Face</a>&nbsp| <a href="https://modelscope.cn/organization/xverse" rel="nofollow"><img src="resources/modelscope.png" width="20px" style="max-width: 100%;"> ModelScope</a>&nbsp| <a href="resources/wechat.png">💬 微信社区</a> </p> <h4 align="left"> <p> <b>中文</b> | <a href="README_EN.md">English</a> <p> </h4>

更新信息

模型介绍

XVERSE-MoE-A36B 是由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),使用混合专家模型(MoE,Mixture-of-experts)架构,模型的总参数规模为 2554 亿,实际激活的参数量为 360 亿,本次开源的模型为底座模型 XVERSE-MoE-A36B,主要特点如下:

XVERSE-MoE-A36B 的模型大小、架构和学习率如下:

total paramsactivated paramsn_layersd_modeln_headsd_ffn_non_shared_expertsn_shared_expertstop_klr
255.4B36.5B50614448409664262.5e−4

评测结果

为了综合评估模型的性能,我们在一系列标准数据集上进行了全面测试,包括 MMLU、C-Eval、CMMLU、RACE-M、PIQA、GSM8K、MATH、MBPP 和 HumanEval,这些评估数据集覆盖了模型在多个领域的能力。并与相近参数规模的开源 MoE 和 Dense 模型(Base)以及闭源 Chat 模型进行了对比,结果如下:

对比开源 Base 模型 - MoE

XVERSE-MoE-A36BGrok-1-A85BDeepSeek-V2-A21BSkywork-MoE-A22BMixtral-8x22B-A39BDBRX-A36B
Total Params255B314B236B146B141B132B
MMLU80.87378.577.477.873.7
C-Eval79.5-81.782.256.844.9
CMMLU81.7-8479.559.961.3
GSM8K89.562.979.276.182.370.7
MATH53.323.943.631.934.125.6
HumanEval51.863.248.843.945.146.3
MBPP59.8-66.6-71.258
PIQA84.8-83.7-84.184.5
RACE-M88.4-73.1-85.755.9

对比开源 Base 模型 - Dense

XVERSE-MoE-A36BXVERSE-65B-2Llama3.1-405BNemotron-4-340BQwen1.5-110BQwen2-72BQwen1.5-72BLlama3.1-70B
Total Params255B65B405B340B110B72B72B70B
MMLU80.874.485.281.180.484.277.579.3
C-Eval79.572.4--89.19184.1-
CMMLU81.775.1--88.390.183.5-
GSM8K89.572.689-85.489.579.583.7
MATH53.320.853.8-49.651.134.141.4
HumanEval51.837.86157.354.364.646.358.5
MBPP59.840.673.4-70.976.966.966.2
PIQA84.879.485.6---83.8
RACE-M88.490.7-----

对比闭源 Chat 模型

XVERSE-MoE-A36BGPT-4oabab-6.5-20240415Step-2Baichuan3GLM-4 (0520)
Total Params255B-万亿万亿千亿-
MMLU80.888.778.781.783.3
C-Eval79.5-----
CMMLU81.7---78.1-
GSM8K89.5-91.79488.293.3
MATH53.376.651.368.449.261.3
HumanEval51.890.27884.170.178.5
MBPP59.8---68.2-
PIQA84.8-----
RACE-M88.4-----

对于上述所有比较模型,我们汇报其官方结果与自测结果之间的最大值。

使用方法

环境安装

  1. 下载本仓库:
git clone https://github.com/xverse-ai/XVERSE-MoE-A36B
cd XVERSE-MoE-A36B
  1. 使用 pip 安装依赖:
pip install -r requirements.txt

Transformers 加载方式

可通过以下代码加载 XVERSE-MoE-A36B 模型来进行推理:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("xverse/XVERSE-MoE-A36B")
model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-MoE-A36B", trust_remote_code=True, torch_dtype=torch.bfloat16, device_map='auto')
model = model.eval()
inputs = tokenizer('北京的景点:故宫、天坛、万里长城等。\n深圳的景点:', return_tensors='pt').input_ids
inputs = inputs.cuda()
generated_ids = model.generate(inputs, max_new_tokens=70, eos_token_id=tokenizer.eos_token_id, repetition_penalty=1.1)
print(tokenizer.batch_decode(generated_ids, skip_special_tokens=True))

网页 Demo

可通过以下代码启动一个web server,在浏览器输入访问地址后,可使用 XVERSE-MoE-A36B 模型进行推理:

python text_generation_demo.py --port='port' --model_path='/path/to/model/' --tokenizer_path='/path/to/tokenizer/'

局限性与免责申明

XVERSE-MoE-A36B 与其他所有 LLM 一样,在某些情况下可能会产生不准确、有偏见或其他令人反感的内容。因此,请谨慎使用模型生成的内容,请勿将生成的有害内容进行传播,在部署任何 XVERSE-MoE-A36B 的应用之前,开发人员应根据其具体应用对模型进行安全测试和调优。

我们强烈警告不要将 XVERSE-MoE-A36B 模型用于制造或传播有害信息,或进行任何可能损害公众、国家、社会安全或违反法规的活动。如果使用 XVERSE-MoE-A36B 模型产生任何问题,无论是数据安全问题、公共舆论风险,还是模型被误解、滥用、传播或不合规使用所引发的任何风险和问题,我们将不承担任何责任。

模型开源协议

使用本仓库的源码需要遵循 Apache-2.0 开源协议,使用 XVERSE-MoE-A36B 的模型权重则需要遵循模型许可协议

XVERSE-MoE-A36B 模型权重对学术研究完全开放,并且支持免费商用。如需申请商业许可证,请填写【申请表】,如有其他问题或合作,请联系 opensource@xverse.cn