Home

Awesome

Awesome-Medical-Healthcare-Dataset-For-LLM

A curated list of popular Datasets, Models and Papers for LLMs in Medical/Healthcare.

Datasets

中文

数据集名称内容概述获取链接数据大小
MedDialogMedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。下载链接3.3GB
Chinese medical dialogue data 中文医疗对话数据集数据中有六个科室的医学问答数据:<br/><Andriatria_男科> 94596个问答对 <IM_内科> 220606个问答对 <OAGD_妇产科> 183751个问答对**<Oncology_肿瘤科>** 75553个问答对 <Pediatric_儿科> 101602个问答对 <Surgical_外科> 115991个问答对 总计 792099个问答对下载链接800k 条,330MB
Huatuo-26MHuatuo-26M 是迄今为止最大的中医问答数据集。该数据集包含超过2600万对高质量的医学问答对,涵盖疾病、症状、治疗和药物信息等广泛主题。下载链接4.54GB
huatuo_encyclopedia_qa该数据集共有364,420条医疗QA数据,其中一些数据以不同的方式包含多个问题。我们从纯文本(例如,医学百科全书和医学文章)中提取医学QA对。我们在中文维基百科上收集了8699个疾病百科条目和2736个药物百科条目。此外,我们还从钱文健康网站抓取了226432篇高质量的医学文章。下载链接605MB
中文医疗对话数据集(华佗项目)22万条中文医疗对话数据集(华佗项目):FreedomIntelligence/HuatuoGPT-sft-data-v1下载链接333MB
医疗大模型数据集(包括预训练、指令微调和奖励数据集)240万条中文医疗数据集(包括预训练、指令微调和奖励数据集)下载链接2.1GB
外科问诊数据BillGPT/Chinese-medical-dialogue-data60.8K条外科问诊数据,示例:"患者:新癀片有什么用,想问一下新癀片吃了有什么作用呀? 医生:病情分析:您好:新癀片主要是可以清热解毒,活血化瘀,消肿止痛。用于热毒瘀血所致的咽喉肿痛、牙痛、痹痛、胁痛、黄疸、无名肿毒等症。指导意见:如果您有咽喉疼痛等症状服用效果是很好的,但是有胃炎的朋友尽量不要服用,有一定的胃肠反应,里面也含有对胃有刺激成分。"下载链接936MB
中文医学指令精调/指令微调数据集(Instruct-tuning)采用了公开和自建的中文医学知识库,主要参考了cMeKG。 医学知识库围绕疾病、药物、检查指标等构建,字段包括并发症,高危因素,组织学检查,临床症状,药物治疗,辅助治疗等。利用GPT3.5接口围绕医学知识库构建问答数据,设置了多种Prompt形式来充分利用知识。下载链接7.6K条
MeChat:中文心理健康支持对话大模型与数据集数据集通过 ChatGPT 改写真实的心理互助 QA 为多轮的心理健康支持多轮对话(single-turn to multi-turn inclusive language expansion via ChatGPT),该数据集含有 56k 个多轮对话,其对话主题、词汇和篇章语义更加丰富多样,更加符合在长程多轮对话的应用场景。下载链接56k条
CMB-Chinese Medical BenchmarkCMB是一个全方位多层次的中文医疗模型评估平台。它共包含280839道多项选择题和74例复杂病例问诊题,涵盖了所有医学临床工种和不同职业级别的考试,综合考察模型的医学知识和临床问诊能力下载链接30MB
ChatMed_Consult_DatasetChatMed_Consult_Dataset 中的query(或者是prompt)来自于互联网上的医疗问诊问题(110,113),反映了真实世界的不同用户/患者的医疗问诊需求。目前response都是由OpenAI GPT-3.5引擎回答的。我们后续会对互联网上的医生回答与患者回答进行筛选甄别,择优选择,构建质量更优的数据集。下载链接395MB
中医药指令数据集ChatMed_TCM_Dataset以开源的[中医药知识图谱] (https://github.com/ywjawmw/TCM_KG) 为基础,采用以实体为中心的自指令方法(entity-centric self-instruct),调用ChatGPT得到11w+的围绕中医药的指令数据。下载链接110MB
cMedQA中文社区医学问答数据集华人社区医疗问答的数据集,该数据集是1.0版本,提供方将不时更新和扩充数据库。为了保护隐私,数据是匿名的,不包括个人信息。下载链接80MB
WebMedQA 线上医学QAWebMedQA是一个从百度医生和120Ask等在线健康咨询网站收集的真实中国医学问答数据集。用户首先填写个人信息表格,然后描述他们的疾病和健康问题。这些问题对所有注册的临床医生和用户开放,直到问题提出者选择最满意的答案并结束问题。医生和热心的用户可以在发布的问题下提供诊断和建议,他们的标题和专业与他们的答案一起显示。提问者也可以进一步询问他们是否对其中一个答案感兴趣。每个问题所属的类别也由其提出者选择。下载链接75MB
ChineseBLUE基准ChineseBLUE基准由不同的带有语料库的生物医学文本挖掘任务组成。这些任务涵盖了各种文本类型(生物医学网络数据和临床笔记)、数据集大小和难度,更重要的是,突出了常见的生物医学文本挖掘挑战。下载链接400MB
Yidu-S4K命名实体识别,实体及属性抽取下载链接4K条
Yidu-N7K临床语标准化下载链接7K条
HealthCareMagic-100k来自HealthCareMagic.com的10万次病人和医生之间的真实对话下载链接137MB
icliniq-10k来自icliniq.com网站的病人和医生之间的10K条真实对话下载链接20MB
GenMedGPT-5k5k从ChatGPT GenMedGPT-5k和疾病数据库中生成了患者和医生之间的对话。下载链接5K条

英文

数据集名称内容概述获取链接数据大小
MIMIC-IIIEHRhttps://mimic.mit.edu/docs/iii/58,976 hospital admissions for 38,597 patients
MIMIC-IVEHRhttps://mimic.mit.edu/docs/iv/covering a decade of admissions between 2008 and 2019
CPRDEHRhttps://cprd.com/dataover 2,000 primary care practices and include 60 million patients
PubMedScientific Literaturehttps://ftp.ncbi.nlm.nih.gov/pubmed/baseline/35M citations and abstracts of biomedical literature
PMCScientific Literaturehttps://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_bulk8 million full-text article records
RCTScientific Literaturehttps://github.com/bwallace/RCT-summarization-data4,528 abstract
MS$\hat{~}$2Scientific Literaturehttps://github.com/allenai/ms2/470,402 abstract
CDSRScientific Literaturehttps://github.com/qiuweipku/Plain\_language\_summarization7,805 abstract
SumPubMedScientific Literaturehttps://github.com/vgupta123/sumpubmed33,772 abstract
The PileScientific Literaturehttps://pile.eleuther.ai/825 GB English text
S2ORCScientific Literaturehttps://github.com/jbshp/GenCompareSum63,709 abstract
CORD-19Scientific Literaturehttps://github.com/allenai/cord191M papers
MeQSumMedical Question Summarizationhttps://github.com/abachaa/MeQSum1000 instances
CHQ-SumMedical Question Summarizationhttps://github.com/shwetanlp/Yahoo-CHQ-Summ1507 instances
UMLSKnowledge Basehttps://www.nlm.nih.gov/research/umls/index.html2M entities for 900K concepts
COMETAWeb Data (social media)https://github.com/cambridgeltl/cometa800K Reddit posts
MedDialogDialoguehttps://github.com/UCSD-AI4H/COVID-Dialogue3.66 million conversations
CovidDialogDialoguehttps://github.com/UCSD-AI4H/COVID-Dialogue603 consultations
Medical FlashcardsDialoguehttps://github.com/kbressem/medalpaca33955 instances
WikidocDialoguehttps://huggingface.co/datasets/medalpaca/medical\_meadow\_wikidoc67704 instances
Wikidoc Patient InformationDialoguehttps://huggingface.co/datasets/medalpaca/medical\_meadow\_wikidoc\_patient\_information5942 instances
MEDIQADialoguehttps://huggingface.co/datasets/medalpaca/medical\_meadow\_wikidoc\_patient\_information2208 instances
CORD-19Dialoguehttps://huggingface.co/datasets/medalpaca/medical\_meadow\_cord191056660 instances
MMMLUDialoguehttps://huggingface.co/datasets/medalpaca/medical\_meadow\_mmmlu3787 instances
Pubmed CausalDialoguehttps://huggingface.co/datasets/medalpaca/medical\_meadow\_pubmed\_causal2446 instances
ChatDoctorDialoguehttps://github.com/Kent0n-Li/ChatDoctor215000 instances
Alpaca-EN-ANEnglish Instructionshttps://github.com/tatsu-lab/stanford\_alpaca/blob/main/alpaca\_data.json52K instructions
Alpaca-CH-ANChinese Instructionshttps://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM/tree/main/data52K instructions
ShareGPTConversationshttps://huggingface.co/datasets/philschmid/sharegpt-raw61653 long conversations
WebTextWeb Datahttps://commoncrawl.org/the-data/get-started/40 GB of text
OpenWebTextWeb Datahttps://skylion007.github.io/OpenWebTextCorpus/38 GB of text
Colossal Clean Crawled CorpusWeb Datahttps://www.tensorflow.org/datasets/catalog/c4806 GB of text
OpenIEHR, Multimodelhttps://openi.nlm.nih.gov/faq\#collection3.7 million images from about 1.2 million papers
U-XrayMultimodelhttps://openi.nlm.nih.gov/3,955 reports and 7,470 images
ROCOMultimodelhttps://github.com/razorx89/roco-dataset81,000 radiology images and corresponding captions
MedICaTMultimodelhttps://github.com/allenai/medicat17,000 images includes captions
PMC-OAMultimodelhttps://huggingface.co/datasets/axiong/pmc\_oa\_beta1.6M image-caption pairs
CheXpertMultimodelhttps://aimi.stanford.edu/chexpert-chest-x-rays224,316 chest radiographs with associated reports
PadChestMultimodelhttp://bimcv.cipf.es/bimcv-projects/padchest/160,000 images with related text
MIMIC-CXRMultimodelhttps://mimic.mit.edu/docs/iv/modules/cxr/227,835 imaging studies for 64,588 patients
PMC-15MMultimodel15 million Figure-caption
pairshttps://arxiv.org/abs/2303.00915
OpenPathMultimodelhttps://laion.ai/blog/laion-5b/208,414 pathology images related descriptions

Models

模型地址简介
DoctorGLMDoctorGLM基于 ChatGLM-6B的中文问诊模型,通过中文医疗对话数据集进行微调,实现了包括lora、p-tuningv2等微调及部署
BenTsaoBenTsao开源了经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果。
BianQueBianQue一个经过指令与多轮问询对话联合微调的医疗对话大模型,基于ClueAI/ChatYuan-large-v2作为底座,使用中文医疗问答指令与多轮问询对话混合数据集进行微调。
HuatuoGPTHuatuoGPT开源了经过中文医学指令精调/指令微调(Instruct-tuning)的一个GPT-like模型
Med-ChatGLMMed-ChatGLM基于中文医学知识的ChatGLM模型微调,微调数据与BenTsao相同。
QiZhenGPTQiZhenGPT该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在LLaMA-7B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。
ChatMedChatMed该项目推出ChatMed系列中文医疗大规模语言模型,模型主干为LlaMA-7b并采用LoRA微调,具体包括ChatMed-Consult : 基于中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集;ChatMed-TCM : 基于中医药指令数据集ChatMed_TCM_Dataset,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法(entity-centric self-instruct),调用ChatGPT得到2.6w+的围绕中医药的指令数据训练得到。
XrayGLMXrayGLM该项目为促进中文领域医学多模态大模型的研究发展,发布了XrayGLM数据集及模型,其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。
MeChatMeChat该项目开源的中文心理健康支持通用模型由 ChatGLM-6B LoRA 16-bit 指令微调得到。数据集通过调用gpt-3.5-turbo API扩展真实的心理互助 QA为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。
MedicalGPTMedicalGPT训练医疗大模型,实现包括二次预训练、有监督微调、奖励建模、强化学习训练。发布中文医疗LoRA模型shibing624/ziya-llama-13b-medical-lora,基于Ziya-LLaMA-13B-v1模型,SFT微调了一版医疗模型,医疗问答效果有提升,发布微调后的LoRA权重。
SunsimiaoSunsimiaoSunsimiao是一个开源的中文医疗大模型,该模型基于baichuan-7B和ChatGLM-6B底座模型在十万级高质量的中文医疗数据中微调而得。
ShenNong-TCM-LLMShenNong-TCM-LLM该项目开源了ShenNong中医药大规模语言模型,该模型以LlaMA为底座,采用LoRA (rank=16)微调得到。微调代码与ChatMed代码库相同。此外该项目还开源了中医药指令微调数据集。
SoulChatSoulChat该项目开源了经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心(SoulChat),该模型以ChatGLM-6B作为初始化模型,进行了全量参数的指令微调。
CareGPTCareGPT该项目开源了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型,包含LLM的训练、测评、部署等以促进医疗LLM快速发展。
DISC-MedLLMDISC-MedLLM该项目是由复旦大学发布的针对医疗健康对话式场景而设计的医疗领域大模型与数据集,该模型由DISC-Med-SFT数据集基于Baichuan-13B-Base指令微调得到。
Taiyi-LLMTaiyi-LLM该项目由大连理工大学信息检索研究室开发的中英双语医学大模型"太一",收集整理了丰富的中英双语生物医学自然语言处理(BioNLP)训练语料,总共包含38个中文数据集,通过丰富的中英双语任务指令数据(超过100W条样本)进行大模型(Qwen-7B-base)指令微调,使模型具备了出色的中英双语生物医学智能问答、医患对话、报告生成、信息抽取、机器翻译、标题生成、文本分类等多种BioNLP能力。
WiNGPTWiNGPTWiNGPT是一个基于GPT的医疗垂直领域大模型,基于Qwen-7b1作为基础预训练模型,在此技术上进行了继续预训练,指令微调等,该项目具体开源了WiNGPT2-7B-Base与WiNGPT2-7B-Chat模型。
ChiMed-GPTChiMed-GPTChiMed-GPT是一个开源中文医学大语言模型,通过在中文医学数据上持续训练 Ziya-v2 构建而成,其中涵盖了预训练、有监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 等训练过程。
MindChatMindChat心理大模型——漫谈(MindChat)期望从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们纾解心理压力与解决心理困惑,为用户提供隐私、温暖、安全、及时、方便的对话环境,从而帮助用户克服各种困难和挑战,实现自我成长和发展。MindChat是一个基于Qwen作为基础预训练模型,并在此基础上进行指令微调得到的心理垂域大模型。
TitleInstituteDateCode
DoctorGPTSirajraval, GPT School2023-08Github
CoDoC: Enhancing the reliability and accuracy of AI-enabled diagnosis via complementarity-driven deferral to cliniciansDeepMind, Google <br> citations2023-07Github <br> Star
Med-PaLM 2: Towards Expert-Level Medical Question Answering with Large Language ModelsGoogle <br> citations2023-05-
Capabilities of GPT-4 on Medical Challenge ProblemsMicrosoft, OpenAI <br> citations2023-03-
BioMedLM-PubMedGPT: A purpose-built AI model trained to interpret biomedical languageStanford CRFM, MosaicML2022-12HuggingFace <br> Likes
Med-PaLM: Large Language Models Encode Clinical KnowledgeGoogle <br> citations2022-12Github <br> Star
ClinicalT5: A Generative Language Model for Clinical TextUniversity of Oregon, Baidu <br> citations2022-12HuggingFace <br> Likes
GatorTron: A large language model for electronic health recordsUniversity of Florida, NVIDIA <br> citations2022-12HuggingFace <br> Likes
BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and MiningMicrosoft Research <br> citations2022-09HuggingFace <br> Likes
BioBART: Pretraining and Evaluation of A Biomedical Generative Language ModelTsinghua University <br> citations2022-04HuggingFace <br> Likes
KeBioLM: Improving Biomedical Pretrained Language Models with KnowledgeTsinghua, Alibaba <br> citations2021-04Github <br> Star
Pretrained Language Models for Biomedical and Clinical Tasks: Understanding and Extending the State-of-the-ArtMeta <br> citations2020-11Github <br> Star
BioMegatron: Larger Biomedical Domain Language ModelNVIDIA <br> citations2020-10HuggingFace <br> Likes
PubMedBERT: Domain-Specific Language Model Pretraining for Biomedical Natural Language ProcessingMicrosoft Research <br> citations2020-07HuggingFace <br> Likes
Publicly Available Clinical BERT EmbeddingsMIT CSAIL <br> citations2019-04HuggingFace <br> Likes
ClinicalBERT: Modeling Clinical Notes and Predicting Hospital ReadmissionHarvard, Princeton, NYU <br> citations2019-04Github <br> Star
BioBERT: a pre-trained biomedical language representation model for biomedical text miningKorea University <br> citations2019-01Github <br> Star
<!-- | [Paper Name](arxiv link) | Institute Name <br> ![citations](https://img.shields.io/badge/dynamic/json?url=https://api.semanticscholar.org/graph/v1/paper/CorpusID:12345678?fields=citationCount&query=%24.citationCount&label=citations) | 20xx-xx | [HuggingFace](https://github.com) <br> ![Likes](https://img.shields.io/badge/dynamic/json?url=https://huggingface.co/api/models/&query=%24.likes&label=🤗+Likes) -->

Popular LLMs

Model NameBasePara. (B)FeaturesDateLink
GatorTronTransformer0.345, 3.9, 8.9Training from scratch06/2022https://github.com/uf-hobi-informatics-lab/GatorTron
Codex-MedGPT-3.5175CoT, Zero-shot07/2022https://github.com/vlievin/medical-reasoning
GalacticaTransformer1.3, 6.4, 30, 120Reasoning, Multidisciplinary11/2022https://galactica.org
Med-PaLMFlan-PaLM/PaLM540CoT, Self-consistency12/2022-
GPT-4-MedGPT-4-no specialized prompt crafting03/2023-
DeID-GPTGPT-4-De-identifying03/2023https://github.com/yhydhx/ChatGPT-API
ChatDoctorLLaMA7Retrieve online, external knowledge03/2023https://github.com/Kent0n-Li/ChatDoctor
DoctorGLMChatGLM6Extra prompt designer04/2023https://github.com/xionghonglin/DoctorGLM
MedAlpacaLLaMA7, 13Adapt to Medicine04/2023https://github.com/kbressem/medAlpaca
BenTsaoLLaMA7Knowledge graph04/2023https://github.com/SCIR-HI/ Huatuo-Llama-Med-Chinese
PMC-LLaMALLaMA7Adapt to Medicine04/2023https://github.com/chaoyi-wu/PMC-LLaMA
Visual Med-AlpacaLLaMA7multimodal generative model, Self-Instruct04/2023https://github.com/cambridgeltl/visual-med-alpaca
BianQue~ChatGLM6Chain of Questioning04/2023https://github.com/scutcyr/BianQue
Med-PaLM 2PaLM 2340Ensemble refinement, CoT, Self-consistency05/2023-
GatorTronGPTGPT-35, 20Training from scratch for medicine05/2023https://github.com/uf-hobi-informatics-lab/GatorTronGPT
HuatuoGPTBloomz7Reinforced learning from AI feedback05/2023https://github.com/FreedomIntelligence/HuatuoGPT
ClinicalGPTBLOOM7multi-round dialogue consultations06/2023-
MedAGIMiniGPT-4-multimodal, AGI06/2023https://github.com/JoshuaChou2018/MedAGI
LLaVA-MedLLaVA13multimodal, self-instruct, curriculum learning06/2023https://github.com/microsoft/LLaVA-Med
OphGLMChatGLM6multimodal, Ophthalmology LLM06/2023https://github.com/ML-AILab/OphGLM
SoulChatChatGLM6Mental Healthcare06/2023https://github.com/scutcyr/SoulChat
Med-FlamingoFlamingo80multimodal, Few-Shot generative medical VQA07/2023https://github.com/snap-stanford/med-flamingo

Papers

Other Awesome List

LLM-for-Healthcare - A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics.

Licenses

MIT license

本项目遵循 MIT License.

CC BY-NC-SA 4.0

本项目遵循 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

引用

如果本项目对您有帮助,请引用我们的项目。

@misc{medllmdata2023,
  author = {Jun Wang, Changyu Hou, Pengyong Li, Jingjing Gong ,Chen Song, Qi Shen, Guotong Xie},
  title = {Awesome Dataset for Medical LLM: A curated list of popular Datasets, Models and Papers for LLMs in Medical/Healthcare},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/onejune2018/Awesome-Medical-Healthcare-Dataset-For-LLM}},
}
​```