Home

Awesome

JMED-LLM: Japanese Medical Evaluation Dataset for Large Language Models

JMED-LLM (Japanese Medical Evaluation Dataset for Large Language Models) は,日本語の医療分野における大規模言語モデルの評価用データセットです.JMED-LLMは,奈良先端科学技術大学院大学ソーシャル・コンピューティング研究室がシェアードタスクの開催などを通じて構築してきたデータセットを中心に,日本語の医療言語処理タスク向けに公開されている既存のオープンなデータセットをLLM評価に適したタスクに変換し統合したデータセットです.生成AIの医療応用のための性能評価を目的としており,医療応用のタスクごとに適したLLMを選択可能とすることを目指し今後も継続的にデータセットの拡充を行っていきます.

関連資料

※スライド記載の内容は一部古い情報が含まれる場合があります

Tasks/Datasets

TaskDatasetLicenseOriginal Resouce
質問応答JMMLU-MedCC-BY-SA-4.0JMMLU
固有表現抽出MRNER-diseaseCC-BY-4.0NTCIR-16 Real-MedNLP MedTxt-CR Corpus, MedTxt-RR Corpus
MRNER-medicineCC-BY-4.0NTCIR-16 Real-MedNLP MedTxt-CR Corpus
NRNERCC-BY-NC-SA-4.0NursingRecord_NERdataset
文書分類CRADECC-BY-4.0NTCIR-16 Real-MedNLP MedTxt-CR Corpus
RRTNMCC-BY-4.0NTCIR-17 MedNLP-SC MexTxt-RR Corpus
SMDISCC-BY-4.0NTCIR-13 MedWeb Corpus
文類似度JCSTSCC-BY-NC-SA-4.0Japanese-Clinical-STS

Description

質問応答

固有表現抽出

文書分類

文類似度

Leaderboard

多肢選択式タスクは,括弧外がkappa係数(CRADEとJCSTSは線形重み付き),括弧内がaccuracy.

固有表現抽出タスクは,括弧外が部分一致F1,括弧内が完全一致F1.

ModelJMMLU-MedMRNER-diseaseMRNER-medicineNRNERCRADERRTNMSMDISJCSTSAverage
gpt-4o-2024-08-060.82(0.87)0.54(0.15)0.42(0.26)0.39(0.20)0.54(0.53)0.85(0.90)0.76(0.88)0.60(0.48)0.61(0.53)
gpt-4o-mini-2024-07-180.77(0.83)0.48(0.13)0.52(0.32)0.48(0.25)0.21(0.37)0.58(0.71)0.56(0.78)0.57(0.51)0.52(0.48)
google/gemma-2-9b-it0.52(0.64)0.61(0.16)0.65(0.42)0.53(0.30)0.33(0.42)0.54(0.68)0.62(0.81)0.16(0.24)0.49(0.46)
elyza/Llama-3-ELYZA-JP-8B0.34(0.51)0.83(0.31)0.51(0.31)0.47(0.26)0.01(0.26)0.29(0.52)0.54(0.77)0.02(0.18)0.38(0.39)
meta-llama/Meta-Llama-3.1-8B-Instruct0.31(0.49)0.82(0.30)0.54(0.32)0.36(0.18)0.11(0.32)0.41(0.57)0.28(0.64)0.13(0.23)0.37(0.38)
meta-llama/Meta-Llama-3-8B-Instruct0.42(0.57)0.60(0.20)0.44(0.25)0.41(0.21)0.00(0.25)0.37(0.54)0.43(0.72)0.16(0.24)0.36(0.37)
tokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.10.33(0.50)0.56(0.17)0.37(0.21)0.42(0.24)0.31(0.37)0.33(0.55)0.26(0.63)0.01(0.17)0.32(0.35)
Qwen/Qwen2-7B-Instruc0.42(0.57)0.24(0.06)0.29(0.14)0.33(0.17)0.11(0.29)0.31(0.53)0.33(0.67)0.37(0.31)0.30(0.34)
google/gemma-2-2b-it0.17(0.38)0.66(0.20)0.46(0.23)0.46(0.26)0.00(0.25)0.24(0.43)0.14(0.57)0.12(0.21)0.28(0.31)
rinna/llama-3-youko-8b-instruct0.31(0.49)0.02(0.00)0.05(0.02)0.11(0.07)0.02(0.28)0.28(0.47)0.50(0.75)0.01(0.20)0.16(0.28)

How to evaluate

  1. レポジトリのクローン
    git clone https://github.com/sociocom/JMED-LLM.git
    
  2. 必要なパッケージのインストール
    poetry install
    
  3. config_template.yamlをコピーし設定ファイルを作成(評価対象モデルやプロンプトなど実験設定を必要に応じて変更してください)
    cp configs/config_template.yaml configs/your_config.yaml
    
  4. 評価スクリプトの実行
    poetry run python scripts/evaluate.py --cfg configs/your_config.yaml
    

License

The license for each dataset follows the terms of the original dataset's license. All other components are licensed under a <a rel="license" href="https://creativecommons.org/licenses/by/4.0/">Creative Commons Attribution 4.0 International License</a>.

<a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/88x31.png" /></a><br />