診断エラーは患者安全の最大級の課題(米IOM『Improving Diagnosis in Health Care』2015で警鐘)。その多くにアンカリング・早期閉鎖・利用可能性ヒューリスティックなどの認知バイアスが関与する。だが「推論の・どの瞬間に・どのバイアスで逸れるか」を、思考プロセスの時系列として大規模・定量的に構造化した日本語の公開研究は乏しい——が問い。
症例シミュレーションの推論トレース(思考発話・情報収集の順序・暫定診断の更新)をベイズ更新の軌跡として表現すれば、診断エラーは「事後確率トラジェクトリの形」(早期に一疾患へ固執=アンカリング/確証情報のみ収集/鑑別の早すぎる打ち切り=早期閉鎖)として検出・説明でき、専門家のエラー判定を高精度に予測できる、と仮説。日本語・推論トレースの大規模定量化と「バイアスの軌跡的検出」は新規。
推論トレースは長く非定型(自由記述の思考発話+情報収集の系列)。発話埋め込み・系列モデル・ベイズ的状態推定でステップ毎の確率更新と逸脱を推定して初めて、バイアスを軌跡として捉えられる=人手レビューでは規模・再現性ともに不能。なおLLM自身もアンカリング・追従を起こすため、検出器の頑健性検証も研究対象になる。
日本語・臨床推論の定量評価ベンチマーク+「どのバイアスが・どこで効くか」の説明モデル=学会発表・論文。加えて医学生・研修医向けの推論フィードバック(自分の鑑別の絞り方の癖を可視化)。Hiroは医学生=臨床推論を学ぶ当事者で、つまずきとバイアスのリアルを内側から設計できる。