Home

Awesome

CLiB中文大模型能力评测榜单(持续更新)

目录

最近更新

TODO

大模型基本信息

价格单位:元/1m tokens,即元每百万token

modelproduceropen-sourceprice_inputprice_outputdownloadpaperbadcase
GLM-4-Flash智谱AINo0.00.0/linklink
ERNIE-Speed-8K百度No0.00.0//link
internlm2_5-7b-chat上海人工智能实验室Yes0.30.3link/link
Yi-1.5-9B-Chat零一万物Yes0.40.4linklinklink
Llama-3.1-8B-InstructmetaYes0.40.4linklinklink
Doubao-lite-32k豆包No0.30.6//link
glm-4-9b-chat智谱AIYes0.60.6linklinklink
gemma-2-9b-itgoogleYes0.60.6linklinklink
qwen2.5-7b-instruct阿里巴巴Yes1.02.0link/link
gemini-1.5-flashgoogleNo0.52.2//link
gpt-4o-miniopenAINo1.14.3/linklink
........................

更多模型信息详见:

📊 排行榜

1、综合能力排行榜

综合能力得分为分类能力、信息抽取、阅读理解、数据分析、指令遵从、算术运算六者得分的平均值。 lin
详细数据见total <br>

1.1、商用大模型排行榜(含开源模型的付费API)

(1)输出价格100元及以上商用大模型排行榜
大模型价格(输出)分类能力信息抽取阅读理解数据分析指令遵从算术运算总分排名
gpt-4-turbo217元9190.094.096.08396.591.81
讯飞4.0Ultra100元8884.496.092.78094.389.22
阿里qwen-max120元9288.994.799.37779.888.63
Baichuan4100元8694.193.395.37578.287.04
智谱GLM4100元9286.790.098.07778.087.05
<br>
(2)输出价格10~100元商用大模型排行榜
大模型价格(输出)分类能力信息抽取阅读理解数据分析指令遵从算术运算总分排名
gpt-4o72.4元9396.398.0100.08395.794.31
百度ERNIE-4.0-Turbo60元9094.896.098.77897.792.52
百度ERNIE-4.090元8889.094.794.079100.090.83
GLM-4-Plus(new)50元8791.995.399.38188.790.54
Qwen2-72B-Instruct10元8791.194.790.08694.290.55
qwen2.5-72b-instruct12元9287.492.092.78395.590.46
gemini-1.5-pro(new)36元8790.493.399.37592.289.57
minimax-abab6.5-chat30元8987.089.395.37690.387.88
Baichuan3-Turbo12元8886.794.790.77589.287.49
yi-large20元8591.090.092.77788.387.310
minimax-abab6.5s-chat10元8788.088.788.08091.787.211
讯飞星火v3.5(spark-max)30元8792.089.387.37493.587.212
智谱GLM-4-AirX10元8991.992.788.08374.286.513
阿里qwen-plus12元8889.690.084.07393.086.314
yi-large-turbo12元8290.088.786.77887.885.515
讯飞星火v3(spark-pro)30元8782.088.086.07494.085.216
gpt-3.5-turbo11元8183.092.791.37780.084.217
Qwen1.5-72B-Chat10元8984.088.087.37084.883.818
月之暗面moonshot-v1-8k12元9285.084.089.37279.383.619
gemini-1.0-pro(new)10.8元8489.692.799.37650.882.120
商汤SenseChat-v412元8978.588.086.77172.280.921
minimax-abab5.5-chat15元8379.086.772.77639.772.822
<br>
(3)输出价格10元以下商用大模型排行榜
大模型价格(输出)分类能力信息抽取阅读理解数据分析指令遵从算术运算总分排名
yi-lightning(new)0.99元9490.495.3100.08296.093.01
百度ERNIE-3.5-8K2元9489.698.0100.072100.092.32
qwen2.5-32b-instruct7元9194.196.091.38394.091.63
gpt-4o-mini4.3元9093.389.3100.08392.791.44
qwen2.5-14b-instruct6元8990.494.098.08191.590.75
deepseek-chat-v22元9388.094.096.07696.790.66
豆包Doubao-pro-32k2元8688.196.786.78598.290.17
gemini-1.5-flash(new)2.2元9187.492.797.37791.889.58
Llama-3.1-70B-Instruct4.1元8788.992.090.77994.888.79
yi-medium2.5元8693.089.394.07689.287.910
Llama-3-70B-Instruct4.1元8887.096.095.07090.887.811
GLM-4-Long(new)1元8593.389.396.78081.287.612
qwen2.5-7b-instruct2元8588.193.391.37789.887.413
internlm2_5-20b-chat1元8690.486.097.37589.787.414
智谱GLM-4-Air1元8991.992.788.08374.586.515
qwen2-57b-a14b-instruct7元8588.189.387.37789.286.016
Qwen1.5-32B-Chat7元9186.092.787.37286.886.017
gemma-2-9b-it0.6元8582.288.787.38189.385.618
阿里qwen-long2元8985.990.086.77583.385.019
Qwen2-7B-Instruct2元8983.786.775.37781.382.220
Qwen1.5-14B-Chat4元8979.090.790.76677.582.221
Yi-1.5-34B-Chat1.3元9083.082.783.37479.082.022
智谱GLM-4-Flash0.1元8980.086.082.07975.581.923
yi-spark1元8288.988.076.07283.381.724
百度ERNIE-Speed-8K0元8888.188.089.36868.781.725
internlm2_5-7b-chat0.4元8684.490.083.37959.880.426
Llama-3-8B-Instruct0.4元8674.080.090.06389.580.427
qwen-turbo6元8385.288.076.06681.379.928
Yi-1.5-9B-Chat0.4元8283.084.780.07273.879.229
Llama-3.1-8B-Instruct0.4元6385.282.084.06990.579.030
商汤SenseChat-Turbo5元8177.876.786.07278.578.731
豆包Doubao-lite-32k0.6元7786.788.764.76287.277.732
Qwen1.5-7B-Chat2元8076.076.070.76771.273.533
minimax-abab5.5s-chat5元5857.070.756.04957.058.034
<br>

旗舰商用模型badcase: gpt-4o | moonshot-v1-8k | deepseek-chat-v2 | yi-large | 更多 <br><br>

1.2、开源大模型排行榜

(1)10B以下开源大模型排行榜
类别大模型分类能力信息抽取阅读理解数据分析指令遵从算术运算总分排名
开源qwen2.5-7b-instruct8588.193.391.37789.887.41
开源gemma-2-9b-it8582.288.787.38189.385.62
开源glm-4-9b-chat9082.290.082.07976.583.33
开源Qwen2-7B-Instruct8983.786.775.37781.382.24
开源internlm2_5-7b-chat8684.490.083.37959.880.45
开源Llama-3-8B-Instruct8674.080.090.06389.580.46
开源qwen2.5-3b-instruct8175.678.783.37785.780.27
开源Yi-1.5-9B-Chat8283.084.780.07273.879.28
开源Llama-3.1-8B-Instruct6385.282.084.06990.579.09
开源openbuddy-llama3-8b7886.081.379.07063.276.210
开源Qwen1.5-7B-Chat8076.076.070.76771.273.511
开源internlm2-chat-7b8681.072.782.76442.871.512
开源qwen2.5-1.5b-instruct7071.972.763.36283.370.513
开源Phi-3-mini-128k-instruct7463.065.373.07571.370.314
开源MiniCPM-2B-dpo7977.074.066.05552.767.315
开源Qwen1.5-4B-Chat7565.079.363.05653.065.216
开源qwen2-1.5b-instruct7374.168.050.75455.762.617
开源qwen2.5-0.5b-instruct5253.363.346.05851.854.118
开源internlm2-chat-1_8b6960.763.346.04539.754.019
开源Qwen1.5-1.8B-Chat5758.052.748.04626.748.120
开源qwen2-0.5b-instruct4953.362.036.74835.547.421
开源Qwen1.5-0.5B-Chat4440.060.034.74217.239.622
<br>
(2)10B~20B开源大模型排行榜
类别大模型分类能力信息抽取阅读理解数据分析指令遵从算术运算总分排名
开源qwen2.5-14b-instruct8990.494.098.08191.590.71
开源internlm2_5-20b-chat8690.486.097.37589.787.42
开源Qwen1.5-14B-Chat8979.090.790.76677.582.23
开源internlm2-chat-20b9380.086.088.06863.379.74
开源DeepSeek-V2-Lite-Chat8176.381.373.36961.273.75
<br>
(3)30B以上开源大模型排行榜
类别大模型分类能力信息抽取阅读理解数据分析指令遵从算术运算总分排名
开源qwen2.5-32b-instruct9194.196.091.38394.091.61
开源deepseek-chat-v29388.094.096.07696.790.62
开源Qwen2-72B-Instruct8791.194.790.08694.290.53
开源qwen2.5-72b-instruct9287.492.092.78395.590.44
开源Llama-3.1-70B-Instruct8788.992.090.77994.888.75
开源Llama-3-70B-Instruct8887.096.095.07090.887.86
开源qwen2-57b-a14b-instruct8588.189.387.37789.286.07
开源Qwen1.5-32B-Chat9186.092.787.37286.886.08
开源Qwen1.5-72B-Chat8984.088.087.37084.883.89
开源Yi-1.5-34B-Chat9083.082.783.37479.082.010
<br>

2、分类能力排行榜

评测样本举例:

将下列单词按词性分类。
狗,追,跑,大人,高兴,树

☛查看分类能力badcase lin 详细数据见classification <br><br>

3、信息抽取能力排行榜

评测样本举例:

“中信银行3亿元,交通银行增长约2.7亿元,光大银行约1亿元。”
提取出以上文本中的所有组织机构名称

☛查看信息抽取能力badcase lin 详细数据见extract <br><br>

4、阅读理解能力排行榜

阅读理解能力是一种符合能力,考查针对给定信息的理解能力。 依据给定信息的种类,可以细分为:文章问答、表格问答、对话问答……
评测样本举例:

牙医:好的,让我们看看你的牙齿。从你的描述和我们的检查结果来看,你可能有一些牙齦疾病,导致牙齿的神经受到刺激,引起了敏感。此外,这些黑色斑点可能是蛀牙。
病人:哦,真的吗?那我该怎么办?
牙医:别担心,我们可以为你制定一个治疗计划。我们需要首先治疗牙龈疾病,然后清除蛀牙并填充牙洞。在此过程中,我们将确保您感到舒适,并使用先进的技术和材料来实现最佳效果。
病人:好的,谢谢您,医生。那么我什么时候可以开始治疗?
牙医:让我们为您安排一个约会。您的治疗将在两天后开始。在此期间,请继续刷牙,使用牙线,并避免吃过于甜腻和酸性的食物和饮料。
病人:好的,我会的。再次感谢您,医生。
牙医:不用谢,我们会尽最大的努力帮助您恢复健康的牙齿。
基于以上对话回答:病人在检查中发现的牙齿问题有哪些?

☛查看阅读理解能力badcase lin 详细数据见mrc <br><br>

5、数据分析排行榜

专门考查大模型对表格的理解分析能力,常用于数据分析。
评测样本举例:

姓名,年龄,性别,国籍,身高(cm),体重(kg),学历
张三,28,男,中国,180,70,本科
Lisa,33,女,美国,165,58,硕士
Paulo,41,男,巴西,175,80,博士
Miyuki,25,女,日本,160,50,大专
Ahmed,30,男,埃及,175,68,本科
Maria,29,女,墨西哥,170,65,硕士
Antonio,36,男,西班牙,182,75,博士
基于这个表格回答:学历最低的是哪国人?

☛查看数据分析badcase lin 详细数据见tableqa <br><br>

6、中文指令遵从排行榜

参考谷歌IFEval,并将其翻译和适配到中文,精选9类25种指令,说明如下: lin

☛查看中文指令遵从badcase

排行榜: lin <br>详细数据见IFEval <br><br>

7、数学基础(算术)能力排行榜

考查大模型的数学基础能力之算数能力,测试题目为1000以内的整数加减法、不超过2位有效数字的浮点数加减乘除。 举例:166 + 215 + 53 = ?,0.97 + 0.4 / 4.51 = ?

☛查看算术能力badcase lin <br>详细数据见math <br><br>

8、中文编码效率排行榜

暂不计入综合能力评分。 专门考查大模型编码中文字符的效率,同等尺寸大模型,编码效率越高推理速度越快,几乎成正比。 中文编码效率相当于大模型生成的每个token解码后对应的中文平均字数 (大模型每次生成一个token,然后解码成真正可见的字符,比如中文、英文、标点符号等)。 比如baichuan2、llama2的中文中文编码效率分别为1.67、0.61,意味着在同尺寸模型下,baichuan2的运行速度是llama2的2.7倍(1.67/0.61)。 lin <br><br>

🌐各项能力评分

评分方法:从各个维度给大模型打分,每个维度都对应一个评测数据集,包含若干道题。 每道题依据大模型回复质量给1~5分,将评测集内所有题的得分累加并归一化为100分制,即作为最终得分。

类别大模型分类能力信息抽取阅读理解数据分析指令遵从算术运算综合能力
商用gpt-4o9396.398.0100.08395.794.3
商用yi-lightning(new)9490.495.3100.08296.093.0
商用百度ERNIE-4.0-Turbo9094.896.098.77897.792.5
商用百度ERNIE-3.5-8K9489.698.0100.072100.092.3
商用gpt-4-turbo9190.094.096.08396.591.8
开源qwen2.5-32b-instruct9194.196.091.38394.091.6
商用gpt-4o-mini9093.389.3100.08392.791.4
商用百度ERNIE-4.08889.094.794.079100.090.8
开源qwen2.5-14b-instruct8990.494.098.08191.590.7
开源deepseek-chat-v29388.094.096.07696.790.6
商用GLM-4-Plus(new)8791.995.399.38188.790.5
开源Qwen2-72B-Instruct8791.194.790.08694.290.5
开源qwen2.5-72b-instruct9287.492.092.78395.590.4
商用豆包Doubao-pro-32k8688.196.786.78598.290.1
商用gemini-1.5-pro(new)8790.493.399.37592.289.5
商用gemini-1.5-flash(new)9187.492.797.37791.889.5
商用讯飞4.0Ultra8884.496.092.78094.389.2
开源Llama-3.1-70B-Instruct8788.992.090.77994.888.7
商用阿里qwen-max9288.994.799.37779.888.6
商用yi-medium8693.089.394.07689.287.9
商用minimax-abab6.5-chat8987.089.395.37690.387.8
开源Llama-3-70B-Instruct8887.096.095.07090.887.8
商用GLM-4-Long(new)8593.389.396.78081.287.6
开源qwen2.5-7b-instruct8588.193.391.37789.887.4
开源internlm2_5-20b-chat8690.486.097.37589.787.4
商用Baichuan3-Turbo8886.794.790.77589.287.4
商用yi-large8591.090.092.77788.387.3
商用minimax-abab6.5s-chat8788.088.788.08091.787.2
商用讯飞星火v3.5(spark-max)8792.089.387.37493.587.2
商用Baichuan48694.193.395.37578.287.0
商用智谱GLM49286.790.098.07778.087.0
商用智谱GLM-4-Air8991.992.788.08374.586.5
商用智谱GLM-4-AirX8991.992.788.08374.286.5
商用阿里qwen-plus8889.690.084.07393.086.3
开源qwen2-57b-a14b-instruct8588.189.387.37789.286.0
开源Qwen1.5-32B-Chat9186.092.787.37286.886.0
开源gemma-2-9b-it8582.288.787.38189.385.6
商用yi-large-turbo8290.088.786.77887.885.5
商用讯飞星火v3(spark-pro)8782.088.086.07494.085.2
商用阿里qwen-long8985.990.086.77583.385.0
商用gpt-3.5-turbo8183.092.791.37780.084.2
开源Qwen1.5-72B-Chat8984.088.087.37084.883.8
商用月之暗面moonshot-v1-8k9285.084.089.37279.383.6
开源glm-4-9b-chat9082.290.082.07976.583.3
开源Qwen2-7B-Instruct8983.786.775.37781.382.2
开源Qwen1.5-14B-Chat8979.090.790.76677.582.2
商用gemini-1.0-pro(new)8489.692.799.37650.882.1
开源Yi-1.5-34B-Chat9083.082.783.37479.082.0
商用智谱GLM-4-Flash8980.086.082.07975.581.9
商用yi-spark8288.988.076.07283.381.7
商用百度ERNIE-Speed-8K8888.188.089.36868.781.7
商用商汤SenseChat-v48978.588.086.77172.280.9
开源internlm2_5-7b-chat8684.490.083.37959.880.4
开源Llama-3-8B-Instruct8674.080.090.06389.580.4
开源qwen2.5-3b-instruct8175.678.783.37785.780.2
商用qwen-turbo8385.288.076.06681.379.9
开源internlm2-chat-20b9380.086.088.06863.379.7
开源Yi-1.5-9B-Chat8283.084.780.07273.879.2
开源Llama-3.1-8B-Instruct6385.282.084.06990.579.0
商用商汤SenseChat-Turbo8177.876.786.07278.578.7
商用豆包Doubao-lite-32k7786.788.764.76287.277.7
开源openbuddy-llama3-8b7886.081.379.07063.276.2
开源DeepSeek-V2-Lite-Chat8176.381.373.36961.273.7
开源Qwen1.5-7B-Chat8076.076.070.76771.273.5
商用minimax-abab5.5-chat8379.086.772.77639.772.8
开源internlm2-chat-7b8681.072.782.76442.871.5
开源qwen2.5-1.5b-instruct7071.972.763.36283.370.5
开源Phi-3-mini-128k-instruct7463.065.373.07571.370.3
开源MiniCPM-2B-dpo7977.074.066.05552.767.3
开源Qwen1.5-4B-Chat7565.079.363.05653.065.2
开源qwen2-1.5b-instruct7374.168.050.75455.762.6
商用minimax-abab5.5s-chat5857.070.756.04957.058.0
开源qwen2.5-0.5b-instruct5253.363.346.05851.854.1
开源internlm2-chat-1_8b6960.763.346.04539.754.0
开源Qwen1.5-1.8B-Chat5758.052.748.04626.748.1
开源qwen2-0.5b-instruct4953.362.036.74835.547.4
开源Qwen1.5-0.5B-Chat4440.060.034.74217.239.6
<br>

⚖️原始评测数据

包含各维度评测集以及大模型输出结果,详见本项目的eval文件目录

为什么做榜单?

大模型选型及评测交流群

先加小编微信,后拉入群 lin