医療AIは「自信たっぷりに」間違える——国試正誤ラベルで医療LLMの誤りの型と確信度較正を解明する

🔬 medcalib.research / med-llm-reliability

⚖️

MedCalib — 医療AIの誤り・確信度マッピング

研究プロトタイプ・国試の正誤ラベルで医療LLMを検証（ダミーデータ）

検証説明 4.2万件

検証した生成説明

4.2万件

検出した誤り（16.3%）

6,840件

誤りの型

9型

危険な過信の検出

AUC.88

▲ 較正＋型分類で

信頼度較正曲線（確信度 vs 実際の正答率）

対角線＝理想（完全較正）。実測が下に膨らむほど「自信過剰」。赤＝高確信なのに誤る危険ゾーン。

実測（過信ぎみ）理想（完全較正）危険な過信ゾーン

医学的誤りの型上位（検出された誤りの内訳）

1数値・基準値の取り違え24%

2禁忌・薬物相互作用の見落とし19%

3最新ガイドライン未反映（古い基準）16%

4因果・前後関係の逆転13%

5過度の一般化（例外の無視）11%

↑ 研究コード名「MedCalib」。みんこくの解説ファクトチェック基盤（国試の正誤ラベル）を使い、
医療AIの「誤りの型」と「確信度較正」をAIで実証マッピングした完成イメージ。

医療AIは、もっともらしく・自信たっぷりに間違える。国試規模の正誤ラベルで、医療LLMの「誤りの型」と「確信度の較正」を実証解明し、高確信なのに誤る「危険な過信」を検出する——完成したらこう見える、の外観イメージ。

上限 500万円（直接経費）学生応募可（医学生＝危険度を判定できる当事者） e-Rad 応募第2回・2026年6月上旬予定分野：医療AI安全性 × 医学知識評価

🔬 問い・学術的背景

医療LLMは高い流暢さで誤情報を生成し（医療要約では緩和なしで誤り率6割超の報告もある）、しかも「どれだけ自信を持って間違えるか」＝確信度の信頼性が未解明。日本語・国家試験スケールで、医療AIの誤りが「どこに・どんな型で」入り、確信度とどう乖離するかを実証構造化した公開研究は乏しい。

🎯 仮説・新規性

医学的誤りは少数の「型」（数値の取り違え／禁忌の見落とし／ガイドライン未反映／因果の逆転等）に類型化でき、LLMの内部確信度（対数尤度・self-consistency）と臨床的危険度には系統的な乖離（危険な誤りほど自信を持って提示＝過信）がある、と仮説する。誤り型分類＋確信度較正を結べば「危険な過信」を高精度に検出できる。日本語・国試規模の正誤ラベル（みんこくの解説ファクトチェック基盤＝全1,679問規模）を用いる点が新規。

🤖 AI活用の必然性

研究対象そのものがAI（医療LLM）の振る舞い＝AI for Science。複数モデル×数万件の生成説明、対数尤度・self-consistency・埋め込みの解析は人手で不可能。誤り型分類器・確信度較正・LLM-as-judge（人手検証と約0.9一致）を組み合わせて初めて規模に到達する。

💰 500万円の使途

① GPU／API（複数LLMの大量推論・logprob取得）
② 医学専門家による誤りアノテーション（ゴールドラベル）
③ 較正・誤り検出モデルの開発
④ IRB・データ管理
⑤ ベンチマーク公開（プレプリント・可視化Web）

📈 期待成果・社会実装（出口）

日本語・国試規模の「医療LLM誤り×確信度ベンチマーク」＋危険検出手法＝学会発表・論文。加えてみんこくの解説品質保証（誤りラベル→自動フラグ／出題除外）へ即実装。医療現場でAIを安全に使うための"自信の信頼性"基盤。Hiroは医学生＝臨床的危険度の判定で優位、かつ既存の解説検証資産を持つ。

※ 正直な関門：国試の正答はガイドライン改訂で変わりうる（ラベルの時間的劣化）。専門家アノテーションのコストと一致率の担保が要る。一部APIはlogprobが取れず確信度推定が制約される。学生応募可だが所属大学のe-Rad機関登録・承認が前提。第2回の正式日程・公募要領は確定次第の確認が必要。

完成イメージ（ダミーデータ）・元データ資産＝みんこく解説ファクトチェック基盤（国試）／企画ログ → spread-plans.md #2