Home

Awesome

CMMLU---中文多任务语言理解评估

evaluation evaluation

<p align="center"> <img src="fig/banner_zh.jpg" style="width: 100%;" id="title-icon"> </p> <h4 align="center"> <p> <b>简体中文</b> | <a href="https://github.com/haonan-li/CMMLU/blob/master/README_EN.md">English</a> <p> </h4> <p align="center" style="display: flex; flex-direction: row; justify-content: center; align-items: center"> 📄 <a href="https://arxiv.org/abs/2306.09212" target="_blank" style="margin-right: 15px; margin-left: 10px">论文</a> • 🏆 <a href="https://github.com/haonan-li/CMMLU/#排行榜" target="_blank" style="margin-left: 10px">排行榜</a> • 🤗 <a href="https://huggingface.co/datasets/haonan-li/cmmlu" target="_blank" style="margin-left: 10px">数据集</a> </p>

简介

CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

注:如果有古汉语的评估需求,欢迎使用ACLUE.

<p align="center"> <img src="fig/logo.jpg" style="width: 85%;" id="title-icon"> </p>

排行榜

Note: 自2023-12-16日起,对于未开放公测的API模型,我们将验证 1.模型是否有基本的指令跟随能力;2.是否存在数据污染,通过验证的模型会被更新在榜单。

以下表格显示了模型在 five-shot 和 zero-shot 测试下的表现。

<details> <summary>Five-shot</summary>
模型STEM人文学科社会科学其他中国特定主题平均分
开放测试的模型
Lingzhi-72B-chat84.8292.9391.2592.6490.8990.26
Qwen2-72B82.8093.8490.3892.7190.6089.65
Qwen1.5-110B81.5992.4189.1491.1989.0288.32
JIUTIAN-13.9B80.1491.4088.5790.3288.1487.37
Qwen1.5-72B76.8388.3784.1586.0683.7783.54
PCI-TransGPT76.8586.4681.6584.5782.8582.46
Qwen1.5-32B76.2586.3183.4283.8282.8482.25
ZhiLu-2-8B74.3283.3381.0683.7878.5879.95
BlueLM-7B61.3679.8377.8078.8976.7474.27
Qwen1.5-7B63.6476.4274.6975.9173.4372.50
XuanYuan-70B60.7477.7975.4770.8170.9271.10
GPT465.2372.1172.0674.7966.1270.95
Llama-3.1-70B-Instruct55.0566.6266.0870.5061.6564.38
XuanYuan-13B50.0766.3264.1159.9960.5560.05
Qwen-7B48.3963.7761.2262.1458.7358.66
ZhiLu-13B44.2661.5460.2561.1457.1457.16
ChatGPT47.8155.6856.5062.6650.6955.51
Baichuan-13B42.3861.6160.4459.2656.6255.82
ChatGLM2-6B42.5550.9850.9950.8048.3748.80
Baichuan-7B35.2548.0747.8846.6144.1444.43
Falcon-40B33.3343.4644.2844.7539.4641.45
LLaMA-65B34.4740.2441.5542.8837.0039.80
ChatGLM-6B32.3539.2239.6538.6237.7037.48
BatGPT-15B34.9635.4536.3142.1437.8937.16
BLOOMZ-7B30.5639.1038.5940.3237.1537.04
Llama-3-70B-Instruct30.1039.3832.9348.0537.1736.85
Chinese-LLaMA-13B27.1233.1834.8735.1032.9732.63
Bactrian-LLaMA-13B27.5232.4732.2735.7731.5631.88
MOSS-SFT-16B27.2330.4128.8432.5628.6829.57
未开放测试的模型
JIUTIAN-57B79.7991.9988.5790.2788.0287.39
BlueLM78.1690.5086.8887.8787.5585.59
Mind GPT76.7687.0983.7484.7081.8282.84
ZW-LM72.6885.8483.6185.6882.7181.73
QuarkLLM70.9785.2082.8882.7181.1280.27
Galaxy69.6174.9578.5477.9373.9974.03
KwaiYii-66B56.7079.4372.8474.4371.1171.12
FanFan-1.5B59.8470.8670.7272.1969.7366.50
Mengzi-7B49.5975.2771.3670.5269.2366.41
KwaiYii-13B46.5469.2264.4965.0963.1061.73
MiLM-6B46.8561.1261.6858.8459.3957.17
MiLM-1.3B35.5949.5849.0347.5648.1745.39
Random25.0025.0025.0025.0025.0025.00
</details> <details> <summary>Zero-shot</summary>
模型STEM人文学科社会科学其他中国特定主题平均分
开放测试的模型
Lingzhi-72B-chat84.8592.9990.7592.4790.6890.07
Qwen1.5-110B80.8491.5189.0189.9988.6487.64
Qwen2-72B80.9290.9087.9391.2387.2487.47
PCI-TransGPT76.6986.2681.7184.4783.1382.44
Qwen1.5-72B75.0786.1583.0683.8482.7881.81
Qwen1.5-32B74.8285.1382.4984.3482.4781.47
ZhiLu-2-8B74.3283.3381.0683.7878.5879.95
BlueLM-7B62.0881.2979.3879.5677.6975.40
Qwen1.5-7B62.8774.9072.6574.6471.9471.05
XuanYuan-70B61.2176.2574.4470.6769.3570.59
Llama-3.1-70B-Instruct61.6071.4469.4274.7263.7969.01
GPT463.1669.1970.2673.1663.4768.90
Llama-3-70B-Instruct57.0267.8768.6773.9562.9666.74
XuanYuan-13B50.2267.5563.8561.1761.5060.51
Qwen-7B46.3362.5460.4861.7258.7757.57
ZhiLu-13B43.5361.6061.4060.1558.9757.14
ChatGPT44.8053.6154.2259.9549.7453.22
Baichuan-13B42.0460.4959.5556.6055.7254.63
ChatGLM2-6B41.2852.8553.3752.2450.5849.95
BLOOMZ-7B33.0345.7445.7446.2541.5842.80
Baichuan-7B32.7944.4346.7844.7943.1142.33
ChatGLM-6B32.2242.9144.8142.6041.9340.79
BatGPT-15B33.7236.5338.0746.9438.3238.51
Falcon-40B31.1141.3040.8740.6136.0538.50
LLaMA-65B31.0934.4536.0537.9432.8934.88
Bactrian-LLaMA-13B26.4629.3631.8131.5529.1730.06
Chinese-LLaMA-13B26.7626.5727.4228.3326.7327.34
MOSS-SFT-16B25.6826.3527.2127.9226.7026.88
未开放测试的模型
BlueLM76.3690.3486.2386.9486.8484.68
DiMind70.9286.6686.0486.6081.4982.73
云天天书73.0383.7882.3084.0481.3780.62
Mind GPT71.2083.9580.5982.1178.9079.20
QuarkLLM67.2381.6979.4780.7477.0077.08
Galaxy69.3875.3378.2778.1973.2573.85
ZW-LM63.9377.9576.2872.9972.9472.74
KwaiYii-66B55.2077.1071.7473.3071.2769.96
Mengzi-7B49.4975.8472.3270.8770.0066.88
KwaiYii-13B46.8269.3563.4264.0263.2661.22
FanFan-1.5B54.0264.5363.2267.0962.5761.03
MiLM-6B48.8863.4966.2062.1462.0760.37
MiLM-1.3B40.5154.8254.1553.9952.2650.79
Random25.0025.0025.0025.0025.0025.00
</details>

如何提交测试结果

数据

我们根据每个主题在data目录中提供了开发和测试数据集。您也可以通过Hugging Face获取我们的数据。

快速使用

我们的数据集已经添加到 lm-evaluation-harnessOpenCompass 中,您可以通过这些开源平台快速测试。

数据格式

数据集中的每个问题都是一个多项选择题,有4个选项,只有一个选项是正确答案。数据以逗号分隔的.csv文件形式存在。示例:

    同一物种的两类细胞各产生一种分泌蛋白,组成这两种蛋白质的各种氨基酸含量相同,但排列顺序不同。其原因是参与这两种蛋白质合成的,tRNA种类不同,同一密码子所决定的氨基酸不同,mRNA碱基序列不同,核糖体成分不同,C

提示

我们在src/mp_utils目录中提供了预处理代码。其中包括我们用于生成直接回答提示和思路链 (COT) 提示的方法。

以下是添加直接回答提示后的数据示例:

    以下是关于(高中生物)的单项选择题,请直接给出正确答案的选项。
    题目:同一物种的两类细胞各产生一种分泌蛋白,组成这两种蛋白质的各种氨基酸含量相同,但排列顺序不同。其原因是参与这两种蛋白质合成的:
    A. tRNA种类不同
    B. 同一密码子所决定的氨基酸不同
    C. mRNA碱基序列不同
    D. 核糖体成分不同
    答案是:C

    ... [其他例子] 

    题目:某种植物病毒V是通过稻飞虱吸食水稻汁液在水稻间传播的。稻田中青蛙数量的增加可减少该病毒在水稻间的传播。下列叙述正确的是:
   
    A. 青蛙与稻飞虱是捕食关系
    B. 水稻和病毒V是互利共生关系
    C. 病毒V与青蛙是寄生关系
    D. 水稻与青蛙是竞争关系
    答案是: 

对于思路链提示,我们将提示从“请直接给出正确答案的选项”修改为“逐步分析并选出正确答案”。

评估

我们使用的每个模型的评估代码位于src中,运行它们的代码列在script目录中。

引用

@misc{li2023cmmlu,
      title={CMMLU: Measuring massive multitask language understanding in Chinese}, 
      author={Haonan Li and Yixuan Zhang and Fajri Koto and Yifei Yang and Hai Zhao and Yeyun Gong and Nan Duan and Timothy Baldwin},
      year={2023},
      eprint={2306.09212},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

许可证

CMMLU数据集采用 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.