医師は「どこで診断を間違えるか」——臨床推論のトラジェクトリをAIで構造化し認知バイアスを検出する

🔬 differo.research / reasoning-trace

🧭

Differo — 臨床推論・診断エラーの構造化

研究プロトタイプ・推論トレースをベイズ軌跡で解析（ダミーデータ）

解析トレース 2,180件

解析した推論トレース

2,180件

専門家エラー判定の予測

AUC.88

▲ 系列モデル

検出した認知バイアス

7型

早期閉鎖の検出

F1=.84

▲ 軌跡から

鑑別診断の確率トラジェクトリ（1症例・誤診例の解析）

情報収集ステップごとの各疾患の事後確率。誤りは「軌跡の形」に現れる＝疾患Aへの固執と、正解Bの立ち上がりの遅れ。

疾患A（誤って固執）疾患B（最終正解・実際）理想的なベイズ更新その他の鑑別

検出された認知バイアス上位（診断エラーへの寄与）

SHAP寄与度：そのバイアスが誤診を押し上げる強さ（ダミー）

1アンカリング（初期診断への固執）.31

2早期閉鎖（鑑別の打ち切り）.27

3確証バイアス（支持情報のみ収集）.22

4利用可能性ヒューリスティック.17

↑ 研究コード名「Differo」。症例シミュの推論トレースをベイズ更新の軌跡で表し、
診断エラーを「事後確率トラジェクトリの形」として検出した完成イメージ（ダミーデータ）。

診断エラーは患者安全の最大級の課題。その多くはアンカリング・早期閉鎖などの認知バイアスで起こる。推論をベイズ更新の「軌跡」として表し、どの瞬間に・どのバイアスで逸れたかをAIで検出する——完成したらこう見える、の外観イメージ。みんこく非依存、医学生＝臨床推論を学ぶ当事者性が軸。

上限 500万円（直接経費）学生応募可（医学生＝当事者） e-Rad 応募第2回・2026年6月上旬予定分野：臨床推論科学 × 患者安全

🔬 問い・学術的背景

診断エラーは患者安全の最大級の課題（米IOM『Improving Diagnosis in Health Care』2015で警鐘）。その多くにアンカリング・早期閉鎖・利用可能性ヒューリスティックなどの認知バイアスが関与する。だが「推論の・どの瞬間に・どのバイアスで逸れるか」を、思考プロセスの時系列として大規模・定量的に構造化した日本語の公開研究は乏しい——が問い。

🎯 仮説・新規性

症例シミュレーションの推論トレース（思考発話・情報収集の順序・暫定診断の更新）をベイズ更新の軌跡として表現すれば、診断エラーは「事後確率トラジェクトリの形」（早期に一疾患へ固執＝アンカリング／確証情報のみ収集／鑑別の早すぎる打ち切り＝早期閉鎖）として検出・説明でき、専門家のエラー判定を高精度に予測できる、と仮説。日本語・推論トレースの大規模定量化と「バイアスの軌跡的検出」は新規。

🤖 AI活用の必然性

推論トレースは長く非定型（自由記述の思考発話＋情報収集の系列）。発話埋め込み・系列モデル・ベイズ的状態推定でステップ毎の確率更新と逸脱を推定して初めて、バイアスを軌跡として捉えられる＝人手レビューでは規模・再現性ともに不能。なおLLM自身もアンカリング・追従を起こすため、検出器の頑健性検証も研究対象になる。

💰 500万円の使途

① 症例シミュレーション/思考発話プロトコルの収録・文字起こし
② 専門家による診断エラー・バイアスのアノテーション（ゴールド）
③ GPU/API（系列・対話モデル）
④ IRB・データ管理
⑤ 教育フィードバックWeb・プレプリント公開

📈 期待成果・社会実装（出口）

日本語・臨床推論の定量評価ベンチマーク＋「どのバイアスが・どこで効くか」の説明モデル＝学会発表・論文。加えて医学生・研修医向けの推論フィードバック（自分の鑑別の絞り方の癖を可視化）。Hiroは医学生＝臨床推論を学ぶ当事者で、つまずきとバイアスのリアルを内側から設計できる。

※ 正直な関門：思考発話は実臨床の推論と乖離しうる（生態学的妥当性・反応性）。バイアスのラベルは専門家でも判断が割れる。症例シミュは実患者の不確実性を欠く。「バイアス検出→エラー減・転帰改善」の因果には介入デザインが要る。この領域は近年（2025-26）研究が活発で、新規性は日本語・大規模・軌跡的検出に絞る（誇張しない）。学生応募可だが所属大学のe-Rad機関登録・承認が前提、第2回の正式日程・公募要領は確定次第確認。

完成イメージ（ダミーデータ）・テーマ＝臨床推論/診断エラー（みんこく非依存）／企画ログ → spread-plans.md #5