Home

Awesome

SuperCLUE

中文通用大模型综合性基准SuperCLUE

<a href='https://www.langyb.com'>【琅琊榜】-中文大模型专用竞技场,你关心的领先模型都在这里</a>

<a href='https://www.cluebenchmarks.com/superclue_2404' target="__blank">《中文大模型基准测评2024年4月报告》</a>

<a href='https://www.superclueai.com' target="__blank">SuperCLUE中文大模型测评基准最新榜单(2024年5月)</a>

官网地址:<a href='https://www.cluebenchmarks.com/superclue.html' target="__blank">www.cluebenchmarks.com/superclue.html</a>

技术报告:<a href='https://arxiv.org/abs/2307.15020' target="__blank">SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark</a>

【2023-12-27】 <a href='https://mp.weixin.qq.com/s/PycSpCCREBgB0tEy3csPKQ'>《中文大模型基准测评报告2023年度报告》发布</a>

【2023-12-28】 发布SuperCLUE-2023年12月榜单

【2023-10-19】 <a href='https://www.cluebenchmarks.com/superclue_agent.html' target="__blank">SuperCLUE-Agent:Agent智能体中文原生任务评估基准</a>

【2023-9-12】 <a href='https://github.com/CLUEbenchmark/SuperCLUE-safety' target="__blank">SuperCLUE-Safety:中文大模型多轮对抗安全基准</a>

【2023-9-26】,SuperCLUE发布中文大模型9月榜单。

SuperCLUE是一个综合性大模型评测基准,本次评测主要聚焦于大模型的四个能力象限,包括语言理解与生成、专业技能与知识、Agent智能体和安全性,进而细化为12项基础能力。

相比与上月,新增了AI Agent智能体

<img src="https://github.com/CLUEbenchmark/SuperCLUE/blob/main/resources/superclue_idea2.png" width="90%" height="90%"></img>

SuperCLUE能力评估结构图

<img src="https://github.com/CLUEbenchmark/SuperCLUE/blob/main/resources/category09.png" width="60%" height="60%"></img>

SuperCLUE多维度测评方案

<img src="https://github.com/CLUEbenchmark/SuperCLUE/blob/main/resources/r2309/superclue_mlitisystem.png" width="90%" height="90%"></img>

为什么新增AI Agent智能体能力?

AI agent(智能体)是当前与大语言模型相关的前沿研究热点,拥有类似贾维斯等科幻电影中人类超级助手的能力,可以根据需求自主的完成任务。 然而,面向AI agent智能体,缺乏针对中文大模型的广泛评估。为了解决这一问题,我们在SuperCLUE新的榜单中新增了AI agent智能体能力的测评。 这个榜单将重点评估AI agent在【工具使用】和【任务规划】两个关键能力上的表现,这项工作旨在为评估中文大模型作为智能体的表现提供一个基础和可能。

SuperCLUE总排行榜(2023年12月)

排名模型机构总分OPEN多轮<br/>开放问题OPT三大<br/>能力客观题使用
-GPT4-TurboOpenAI90.6390.8990.03API
-GPT4(网页)OpenAI83.9280.7691.28网页
-GPT4(API)OpenAI79.8476.2488.24API
🏅️文心一言4.0(API)百度79.0275.0088.38API
🥈通义千问2.0阿里巴巴76.5471.7887.64API
🥉AndesGPTOPPO75.0470.0186.76API
4智谱清言清华&智谱74.1169.9183.92网页
5Moonshot(KimiChat)月之暗面71.9267.2582.81网页
-文心一言4.0(网页)百度70.2862.5988.22网页
6Qwen-72B-Chat阿里巴巴69.6962.3186.90API
7序列猴子出门问问68.9861.0187.59API
8Yi-34B-Chat零一万物68.4661.9983.56模型
9PCI-TransGPT佳都科技68.3360.4186.81API
9360GPT_Pro36068.3261.3684.56API
-Claude2Anthropic67.4365.1472.77API
11云雀大模型(豆包)字节跳动66.3558.5384.60网页
-Gemini-proGoogle65.2959.3379.20API
-GPT3.5-TurboOpenAI61.4455.6374.98API
12Qwen-14B-Chat阿里巴巴61.2752.0482.81API
13Baichuan2-13B-Chat百川智能61.1254.4576.67模型
14XVERSE-13B-2-Chat元象科技60.4653.0077.87模型
15讯飞星火V3.0科大讯飞59.3351.7477.03API
16Minimax(应事)稀宇科技58.9150.0079.69网页
17ChatGLM3-6B清华&智谱49.5042.3066.31模型
18Chinese-Alpaca-2-13Byiming cui45.3638.9160.40模型
-Llama_2_13B_ChatMeta37.3634.9143.09模型

注:处于前列的模型,如果分数比较接近(小于0.03分),在排名时会被记为并列的名称。

SuperCLUE-OPEN多轮开放问题排行榜(2023年12月)

排名模型机构OPEN多轮<br/>开放问题语言<br/>与知识专业<br/>与技能工具<br/>使用传统<br/>安全使用
-GPT4-TurboOpenAI90.8990.2197.00100.0062.75API
-GPT4(网页)OpenAI80.7679.4982.8794.6364.71网页
-GPT4(API)OpenAI76.2473.9681.1593.3453.92API
🏅️文心一言4.0(API)百度75.0069.5479.6280.9268.00API
🥈通义千问2.0阿里巴巴71.7871.5873.4076.3252.94API
🥉AndesGPTOPPO70.0172.2368.8070.7155.88API
4智谱清言清华&智谱69.9166.9868.6383.7865.31网页
5Moonshot(KimiChat)月之暗面67.2569.7272.5762.1943.14网页
-Claude2Anthropic65.1455.2873.2765.1383.00API
-文心一言4.0(网页)百度62.5965.0563.2647.3764.00网页
6Qwen-72B-Chat阿里巴巴62.3159.4365.5960.6752.00API
7Yi-34B-Chat零一万物61.9963.9054.5571.0565.31模型
8360GPT_Pro36061.3662.0958.7069.3360.00API
9序列猴子出门问问61.0165.8159.9956.5845.10API
10PCI-TransGPT佳都科技60.4160.3961.5664.6650.98API
-Gemini-proGoogle59.3360.5061.4346.5362.50API
11云雀大模型(豆包)字节跳动58.5357.7556.4255.2667.65网页
-GPT3.5-TurboOpenAI55.6355.3056.2455.2652.00API
12Baichuan2-13B-Chat百川智能54.4557.3548.6956.5854.90模型
13XVERSE-13B-2-Chat元象科技53.0054.6345.8263.3357.84模型
14Qwen-14B-Chat阿里巴巴52.0454.2948.3845.3356.86API
15讯飞星火V3.0科大讯飞51.7457.4048.4144.0043.14API
16Minimax(应事)稀宇科技50.0053.5445.0540.1350.00网页
17ChatGLM3-6B清华&智谱42.3046.6736.1534.2553.92模型
18Chinese-Alpaca-2-13Byiming cui38.9146.4629.3527.6346.94模型
-Llama_2_13B_ChatMeta34.9136.5530.2132.6753.92模型

SuperCLUE-OPT三大能力客观题排行榜(2023年12月)

排名模型机构OPT分数基础<br/>能力中文<br/>特性学术专<br/>业能力使用
-GPT4(网页)OpenAI91.2897.6282.3893.85网页
-GPT4-TurboOpenAI90.0396.9979.1693.93API
🏅️文心一言4.0(API)百度88.3891.6586.1887.32API
-GPT4(API)OpenAI88.2492.9281.8489.95API
-文心一言4.0(网页)百度88.2276.4878.3257.05网页
🥈通义千问2.0阿里巴巴87.6478.6581.2863.48API
🥉序列猴子出门问问87.5991.4680.2890.57API
4Qwen-72B-Chat阿里巴巴86.9092.2176.6591.05API
5PCI-TransGPT佳都科技86.8190.7680.8888.42API
6AndesGPTOPPO86.7692.5576.1790.81API
7云雀大模型(豆包)字节跳动84.6088.7570.8993.06网页
8360GPT_Pro36084.5691.7073.3287.93API
9智谱清言清华&智谱83.9289.1473.1088.72网页
10Yi-34B-Chat零一万物83.5686.9072.8190.12模型
11Qwen-14B-Chat阿里巴巴82.8191.1468.6787.31API
12Moonshot(KimiChat)月之暗面82.8187.7773.3986.41网页
13Minimax(应事)稀宇科技79.6986.5266.1885.18网页
-Gemini-proGoogle79.2083.7270.7882.51API
14XVERSE-13B-2-Chat元象科技77.8784.4662.9683.85模型
15讯飞星火V3.0科大讯飞77.0384.0463.4382.48API
16Baichuan2-13B-Chat百川智能76.6780.6163.7984.50模型
-GPT3.5-TurboOpenAI74.9883.7862.8377.60API
-Claude2Anthropic72.7782.1365.8370.10API
17ChatGLM3-6B清华&智谱66.3172.6354.0571.38模型
18Chinese-Alpaca-2-13Byiming cui60.4070.3947.7562.31模型
-Llama_2_13B_ChatMeta43.0950.4137.2241.48模型

SuperCLUE十大基础能力排行榜(2023年12月)

模型计算逻辑<br/>推理代码知识<br/>百科语言<br/>理解生成<br/>创作对话角色<br/>扮演工具<br/>使用传统<br/>安全
GPT4-Turbo97.2497.5996.1889.6287.8289.9389.2294.46100.0062.75
GPT4(网页)81.1685.6281.8479.1781.9178.9178.3879.0994.6364.71
文心一言4.0(API)77.8487.8473.1998.6371.9366.3657.0353.7780.9268.00
GPT4(API)77.6085.3780.4978.0873.0472.7375.7870.1793.3453.92
Claude270.1080.1469.5762.3372.3239.8154.7647.1765.1383.00
通义千问2.070.1073.2976.8193.1571.9362.7368.7561.3276.3252.94
智谱清言69.0777.4059.4289.7364.9161.1157.8161.3283.7865.31
Qwen-72B-Chat68.5668.0660.1495.8963.1642.5948.4447.0660.6752.00
Moonshot(KimiChat)68.5479.6569.52100.0066.7859.6561.3360.8462.1943.14
AndesGPT62.5972.2671.5588.3674.8264.2368.5665.1970.7155.88
GPT3.5-Turbo60.3154.0554.3560.2759.8255.4550.0050.9655.2652.00
360GPT_Pro56.4364.9754.7093.8462.7955.7355.7542.3269.3360.00
Gemini-pro56.3258.4569.5373.9161.6154.6352.5459.8046.5362.50
序列猴子55.3867.1257.4892.4758.7757.8156.7563.2756.5845.10
云雀大模型(豆包)54.6968.9245.6586.9956.1448.1853.1244.3455.2667.65
Yi-34B-Chat50.0064.3849.2888.3665.1862.7358.8744.3471.0565.31
PCI-TransGPT49.9972.1962.4982.8860.4557.1854.7646.6964.6650.98
Qwen-14B-Chat49.4856.8538.8176.7161.4045.4543.7544.1245.3356.86
文心一言4.0(网页)48.4579.7361.5997.2665.7960.9153.1748.1147.3764.00
XVERSE-13B-2-Chat43.3050.6843.4872.9257.0247.2746.8849.0663.3357.84
Minimax(应事)43.3061.4330.43100.0055.2633.3345.1633.9640.1350.00
Baichuan2-13B-Chat40.6266.2239.2378.7753.5152.7855.4746.2356.5854.90
讯飞星火V3.038.5457.4349.2683.5762.2847.1746.8347.1744.0043.14
ChatGLM3-6B34.7441.1032.6156.9454.3938.1841.4142.4534.2553.92
Llama_2_13B_Chat24.7440.5425.3636.1141.0743.6428.9133.0232.6753.92
Chinese-Alpaca-2-13B22.4045.2120.4551.3751.7539.0947.6642.4527.6346.94

SuperCLUE开源模型排行榜(2023年12月)

排名模型机构总分OPEN<br/>多轮开放问题OPT<br/>三大能力客观题
🏅️Qwen-72B-Chat阿里巴巴69.6962.3186.90
🥈Yi-34B-Chat零一万物68.4661.9983.56
🥉Qwen-14B-Chat阿里巴巴61.2752.0482.81
4Baichuan2-13B-Chat百川智能61.1254.4576.67
5XVERSE-13B-2-Chat元象科技60.4653.0077.87
6ChatGLM3-6B清华&智谱49.5042.3066.31
7Chinese-Alpaca-2-13Byiming cui45.3638.9160.40
-Llama_2_13B_ChatMeta37.3634.9143.09

23-11月测评改进

1. 本次测评中SuperCLUE-Open的超级模型(裁判模型)由10月的GPT4升级为能力更强的GPT4-Turbo,进一步提升开放主观题评估的精确性。

2. 本次SuperCLUE-Open测评集总量由10月的3754道题扩展至4265道题。

3. 与10月相比,本次测评新增了腾讯的混元、阿里云的通义千问2.0(v1030)、零一万物的Yi-34B-Chat、清华&智谱AI的ChatGLM3-Turbo和ChatGLM3-6B、
元象科技的XVERSE-13B-2-Chat。

示例

能力1:语义理解与抽取

这是一种语言能力,能够理解并解析输入的文字信息的含义。模型需要能够识别短语、句子、段落的含义,同时还要能从更大的文本块中抽取关键信息和主题。

多轮对话示例

<img src="https://github.com/CLUEbenchmark/SuperCLUE/blob/main/resources/r2309/image_nlp.png" width="100%" height="100%"></img>

注:本示例中可同时评测多轮对话能力

能力2:AI agent(智能体)能力

AI agent(智能体)是当前与大语言模型相关的前沿研究热点,拥有类似贾维斯等科幻电影中人类超级助手的能力,可以根据需求自主的完成任务。

重点评估AI agent在【工具使用】和【任务规划】两个关键能力上的表现

示例

<img src="https://github.com/CLUEbenchmark/SuperCLUE/blob/main/resources/r2309/image_agent.png" width="100%" height="100%"></img>

能力3:上下文对话

这是一种语言能力,需要理解并记住前面的对话信息,以便在回答中保持连贯性。这涉及到理解对话的整体流程和上下文环境,或生成相应的对话。

示例

<img src="https://github.com/CLUEbenchmark/SuperCLUE/blob/main/resources/r2309/image_dial.png" width="100%" height="100%"></img>

能力4:生成与创作

这是一种语言能力,能够创造新的文本内容,如文章、文案、短故事、诗歌。这涉及到创造性地运用语言,同时还要考虑到风格、语境和目标读者。

示例

<img src="https://github.com/CLUEbenchmark/SuperCLUE/blob/main/resources/r2309/image_generate.png" width="100%" height="100%"></img>

能力5:知识与百科

这是一种知识能力,能够像百科全书一样提供知识信息。这涉及到理解和回答关于广泛主题的问题,以及提供准确、详细和最新的信息。

示例

<img src="https://github.com/CLUEbenchmark/SuperCLUE/blob/main/resources/r2309/image_knowledge.png" width="100%" height="100%"></img>

能力6:代码

这是一种专业能力,能够理解和生成编程代码。这涉及到理解多种编程语言的语法、结构和习惯,以及如何解决编程问题。

多轮对话示例

<img src="https://github.com/CLUEbenchmark/SuperCLUE/blob/main/resources/r2309/image_code.png" width="100%" height="100%"></img>

注:本示例中可同时评测多轮对话能力

能力7:逻辑与推理

这是一种专业能力,能够理解和应用逻辑原则进行推理。这涉及到分析问题、识别问题及推理。

示例

<img src="https://github.com/CLUEbenchmark/SuperCLUE/blob/main/resources/r2309/image_logic.png" width="100%" height="100%"></img>

能力8:计算

这是一种专业能力,使其能够执行数学运算,如加法、减法、乘法和除法,甚至更复杂的数学问题。这涉及到理解数学问题的表述,以及如何步骤地解决这些问题。

多轮对话示例

<img src="https://github.com/CLUEbenchmark/SuperCLUE/blob/main/resources/r2309/image_compute.png" width="100%" height="100%"></img>

注:本示例中可同时评测多轮对话能力

能力9:角色扮演

这是一种感知能力,使其能够在特定的模拟环境或情景中扮演一个角色。这涉及到理解特定角色的行为、说话风格,以及在特定情境下的适当反应。

示例

<img src="https://github.com/CLUEbenchmark/SuperCLUE/blob/main/resources/r2309/image_roleplay.png" width="100%" height="100%"></img>

能力10:安全

这是一种安全能力,防止生成可能引起困扰或伤害的内容。这涉及到识别和避免可能包含敏感或不适当内容的请求,以及遵守用户的隐私和安全政策。

示例

<img src="https://github.com/CLUEbenchmark/SuperCLUE/blob/main/resources/r2309/image_safety.png" width="100%" height="100%"></img>

讨论、测评与交流

<br/>榜单会定期进行更新,会纳入更多可用中文大模型。欢迎对大模型评测感兴趣的个人和机构联系与交流。<br/>

<img src="https://github.com/CLUEbenchmark/SuperCLUE-Agent/blob/main/resources/img/brightmart_s.jpeg" width="30%" height="30%"></img>

</p>