医療LLMは高い流暢さで誤情報を生成し(医療要約では緩和なしで誤り率6割超の報告もある)、しかも「どれだけ自信を持って間違えるか」=確信度の信頼性が未解明。日本語・国家試験スケールで、医療AIの誤りが「どこに・どんな型で」入り、確信度とどう乖離するかを実証構造化した公開研究は乏しい。
医学的誤りは少数の「型」(数値の取り違え/禁忌の見落とし/ガイドライン未反映/因果の逆転 等)に類型化でき、LLMの内部確信度(対数尤度・self-consistency)と臨床的危険度には系統的な乖離(危険な誤りほど自信を持って提示=過信)がある、と仮説する。誤り型分類+確信度較正を結べば「危険な過信」を高精度に検出できる。日本語・国試規模の正誤ラベル(みんこくの解説ファクトチェック基盤=全1,679問規模)を用いる点が新規。
研究対象そのものがAI(医療LLM)の振る舞い=AI for Science。複数モデル×数万件の生成説明、対数尤度・self-consistency・埋め込みの解析は人手で不可能。誤り型分類器・確信度較正・LLM-as-judge(人手検証と約0.9一致)を組み合わせて初めて規模に到達する。
日本語・国試規模の「医療LLM誤り×確信度ベンチマーク」+危険検出手法=学会発表・論文。加えてみんこくの解説品質保証(誤りラベル→自動フラグ/出題除外)へ即実装。医療現場でAIを安全に使うための"自信の信頼性"基盤。Hiroは医学生=臨床的危険度の判定で優位、かつ既存の解説検証資産を持つ。