MOCKUP · SPReAD 1000 企画(外観イメージ) #2 · AI for Science/医療テーマ
#2

医療AIは「自信たっぷりに」間違える——国試正誤ラベルで医療LLMの誤りの型と確信度較正を解明する

🔬 medcalib.research / med-llm-reliability
MedCalib — 医療AIの誤り・確信度マッピング
研究プロトタイプ ・ 国試の正誤ラベルで医療LLMを検証(ダミーデータ)
検証説明 4.2万件
検証した生成説明
4.2万件
検出した誤り(16.3%)
6,840
誤りの型
9
危険な過信の検出
AUC.88
▲ 較正+型分類で
信頼度較正曲線(確信度 vs 実際の正答率)
対角線=理想(完全較正)。実測が下に膨らむほど「自信過剰」。赤=高確信なのに誤る危険ゾーン。
理想=完全較正 危険な過信ゾーン 0 0.5 1.0 0.5 1.0 AIの確信度 → 実際の正答率 ↑
実測(過信ぎみ) 理想(完全較正) 危険な過信ゾーン
医学的誤りの型 上位(検出された誤りの内訳)
1数値・基準値の取り違え24%
2禁忌・薬物相互作用の見落とし19%
3最新ガイドライン未反映(古い基準)16%
4因果・前後関係の逆転13%
5過度の一般化(例外の無視)11%
↑ 研究コード名「MedCalib」。みんこくの解説ファクトチェック基盤(国試の正誤ラベル)を使い、
医療AIの「誤りの型」と「確信度較正」をAIで実証マッピングした完成イメージ。
医療AIは、もっともらしく・自信たっぷりに間違える。国試規模の正誤ラベルで、医療LLMの「誤りの型」と「確信度の較正」を実証解明し、高確信なのに誤る「危険な過信」を検出する——完成したらこう見える、の外観イメージ。
上限 500万円(直接経費) 学生応募可(医学生=危険度を判定できる当事者) e-Rad 応募 第2回・2026年6月上旬予定 分野:医療AI安全性 × 医学知識評価
🔬 問い・学術的背景

医療LLMは高い流暢さで誤情報を生成し(医療要約では緩和なしで誤り率6割超の報告もある)、しかも「どれだけ自信を持って間違えるか」=確信度の信頼性が未解明。日本語・国家試験スケールで、医療AIの誤りが「どこに・どんな型で」入り、確信度とどう乖離するかを実証構造化した公開研究は乏しい。

🎯 仮説・新規性

医学的誤りは少数の「型」(数値の取り違え/禁忌の見落とし/ガイドライン未反映/因果の逆転 等)に類型化でき、LLMの内部確信度(対数尤度・self-consistency)と臨床的危険度には系統的な乖離(危険な誤りほど自信を持って提示=過信)がある、と仮説する。誤り型分類+確信度較正を結べば「危険な過信」を高精度に検出できる。日本語・国試規模の正誤ラベル(みんこくの解説ファクトチェック基盤=全1,679問規模)を用いる点が新規。

🤖 AI活用の必然性

研究対象そのものがAI(医療LLM)の振る舞い=AI for Science。複数モデル×数万件の生成説明、対数尤度・self-consistency・埋め込みの解析は人手で不可能。誤り型分類器・確信度較正・LLM-as-judge(人手検証と約0.9一致)を組み合わせて初めて規模に到達する。

💰 500万円の使途
  • ① GPU/API(複数LLMの大量推論・logprob取得)
  • ② 医学専門家による誤りアノテーション(ゴールドラベル)
  • ③ 較正・誤り検出モデルの開発
  • ④ IRB・データ管理
  • ⑤ ベンチマーク公開(プレプリント・可視化Web)
📈 期待成果・社会実装(出口)

日本語・国試規模の「医療LLM誤り×確信度ベンチマーク」+危険検出手法=学会発表・論文。加えてみんこくの解説品質保証(誤りラベル→自動フラグ/出題除外)へ即実装。医療現場でAIを安全に使うための"自信の信頼性"基盤。Hiroは医学生=臨床的危険度の判定で優位、かつ既存の解説検証資産を持つ。

※ 正直な関門:国試の正答はガイドライン改訂で変わりうる(ラベルの時間的劣化)。専門家アノテーションのコストと一致率の担保が要る。一部APIはlogprobが取れず確信度推定が制約される。学生応募可だが所属大学のe-Rad機関登録・承認が前提。第2回の正式日程・公募要領は確定次第の確認が必要。
完成イメージ(ダミーデータ)・元データ資産=みんこく解説ファクトチェック基盤(国試)/ 企画ログ → spread-plans.md #2