医療面接(問診・ラポール形成・共感・意思決定の共有)は診断精度・患者満足・服薬アドヒアランスを左右する。だがその「上手さ」の評価は、いまもOSCEのルーブリックによる人手・主観採点に依存し、再現性が低く粒度も粗い。「何が・どの瞬間に効くのか」を大規模・定量的に構造化した日本語の公開研究は乏しい——が問い。
模擬患者との診療対話を、発話内容(NLP)+韻律・間(音声)+ターン構造のマルチモーダルで解析すれば、面接の質は「情報収集の網羅性/開放→閉鎖の漏斗型質問/共感表現のタイミング/talk-time比・沈黙の活用/要約・確認(teach-back)」など少数の潜在因子に分解でき、専門家のグローバル評価を高精度に予測・説明できる、と仮説。日本語・医療面接の大規模マルチモーダル定量化は前例が乏しく新規。
数百〜千の長尺対話 × 微小ダイナミクス(共感の一言、0.5秒の間)は、人手採点では規模・粒度ともに不能。発話埋め込み・話者分離・韻律抽出・系列モデルでターン単位の効き目を推定して初めて到達できる。LLM-as-judge と専門家評価の一致検証も組み合わせる。
日本語・医療面接の定量評価ベンチマーク+「どの行動がグローバル評価を上げるか」の説明モデル=学会発表・論文。加えてOSCE対策・地域医療研修で使える客観フィードバックツール(自分の面接を可視化)。Hiroは医学生=OSCE/医療面接を実際に受ける当事者で、評価のリアルと使い所を熟知している。