Home

Awesome

PULSE-EVAL

1. 使用方法

1.1 目录结构

1.2 安装环境依赖包:

在conda环境中执行以下命令:

conda env create -f environment.yaml

1.3 评测使用方法

评测主要分为五个步骤:

2. 数据集介绍

2.1 评测数据集

本评测使用四类公开数据集,并开源四类自建的不同医疗应用数据集。

公开数据集评测维度/能力
MedQA USMLE基于美国医师执照考试(USMLE)的多项选择题数据集。测试模型的英文医学考试能力。
MedQA Mainland中国大陆医师考试选择题数据集。测试模型的中文医学考试能力。
PromptCBLUE中文医疗场景NLP任务转化为基于提示的语言生成任务数据集。测试模型的下游任务能力。
WebMedQA中文线上医疗问诊问答对话数据集。测试模型的中文医疗对话能力。
自建数据集评测维度/能力
MedTriage根据用户信息给出导诊建议的数据集。测试模型在可变候选科室条件下的导诊能力。
DialogSumm从医患对话中生成五史一诉的数据集。测试模型的长文本生成能力。
MedicineQA给定标准参考文献时的用药咨询数据集。测试模型对长文本的理解和总结能力。
CheckupQA体检场景下的数值类咨询数据集。测试模型对于医疗相关数值的理解和分析能力。

2.2 数据格式

单条数据格式如下:

{
  "type": "", 
  "question": "", 
  "reference_answer": "",
  "predict_answer": ""
}

其中type是数据集的名称,reference_answer是标准或参考回答,predict_answer是模型的回答。

3. 评测结果

3.1 评测数据表

说明:

Model Name组织-中文名称Model SizeAVG RankMedQA USMLEMedQA MainlandPrompt CBLUEWeb MedQACheckup QAMedicine QADialogSummMedTriage (F1)
GPT-4OpenAI-1.2511291117111011161096109811090.65
PULSE-Pro上海AILab-1.7510891092108811191105108310960.63
ChatGPTOpenAI-4.0010861057106410531020102910800.43
开源模型
PULSE上海AILab20B4.1310421024103910591049106910760.40
Baichuan2百川智能-百川13B4.5010241041106510441062103510690.33
ChatGLM3智谱&清华6B5.631038106299710121003102410210.06
HuatuoGPT2港中深-华佗13B7.7595599398596398310039800.01
QiZhenGPT浙大-启真13B8.1995595994598910399329210.00
BenTsao哈工大-本草7B8.759619219369109279869200.02
BianQue2华南理工-扁鹊6B10.139139289199889749009080.00
MING上交-明医7B10.699029099248678629609180.01
DoctorGLM上科大6B11.259068969308798808809050.00

3.2 全数据集排名榜单

Model Name组织-中文名称Model SizeAVG RankMedQA USMLEMedQA MainlandPrompt CBLUEWeb MedQACheckup QAMedicine QADialogSummMedTriage (F1)
GPT-4OpenAI-1.2511122111
PULSE-Pro上海AILab-1.7522211222
ChatGPTOpenAI-4.0034446533
开源模型
PULSE-OS上海AILab20B4.1346534344
Baichuan2百川智能-百川13B4.5065353455
ChatGLM3智谱&清华6B5.6353667666
HuatuoGPT2港中深-华佗13B7.758.57798778.5
QiZhenGPT浙大-启真13B8.198.5887510811
BenTsao哈工大-本草7B8.7571091010897
BianQue2华南理工-扁鹊6B10.131091289111111
MING上交-明医7B10.6912111112129108.5
DoctorGLM上科大6B11.251112101111121211

3.3 公开数据集排名榜单

Model NameMedQA USMLEMedQA MainlandPrompt CBLUEWeb MedQAAVG Rank
GPT-411121.25
PULSE-Pro22211.75
ChatGPT34443.75
PULSE-OS46534.50
Baichuan265354.75
ChatGLM353665.00
HuatuoGPT28.57797.88
QiZhenGPT8.58877.88
BenTsao7109109.00
BianQue21091289.75
DoctorGLM1112101111.00
MING1211111211.50

3.4 自建数据集排名榜单

Model NameMedQA USMLEMedQA MainlandPrompt CBLUEWeb MedQAAVG Rank
GPT-411121.25
PULSE-Pro22211.75
ChatGPT34443.75
PULSE-OS46534.50
Baichuan265354.75
ChatGLM353665.00
HuatuoGPT28.57797.88
QiZhenGPT8.58877.88
BenTsao7109109.00
BianQue21091289.75
DoctorGLM1112101111.00
MING1211111211.50

3.5 数据集分类排名榜单

Model Name公开集排名自建集排名平均排名
GPT-4111
PULSE-Pro222
ChatGPT343
PULSE-OS434
Baichuan2555
ChatGLM3666
HuatuoGPT2777
QiZhenGPT888
BenTsao999
BianQue2101110
MING121011
DoctorGLM111212

4. 说明

本评测中,各模型的调用方法如下表所示。Elo评测中,采用"gpt-4-1106-preview"为Evaluator,测试结果获取日期为2023年12月7日。

模型说明
PULSE-Pro使用模型fp16权重
PULSE-OS使用模型fp16权重
GPT-4使用OpenAI的API:"gpt-4-1106-preview"
ChatGPT使用OpenAI的API:"gpt-3.5-turbo-1106"
Baichuan2使用模型权重预测:https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat
ChatGLM3使用模型权重预测:https://huggingface.co/THUDM/chatglm3-6b-32k
HuatuoGPT2使用官方网站预测:https://www.huatuogpt.cn/
QiZhenGPT使用基模型CaMA-13B和官方权重"QiZhen-CaMA-13B-Checkpoint-12400":https://github.com/CMKRG/QiZhenGPT
BenTsao使用官方基模型活字1.0和LoRA权重。https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
BianQue2使用官方权重预测:https://huggingface.co/scutcyr/BianQue-2
MING使用官方权重预测:https://huggingface.co/BlueZeros/MING-7B
DoctorGLM使用基模型ChatGLM和官方ptuning_weight权重:https://github.com/xionghonglin/DoctorGLM