MOCKUP · SPReAD 1000 企画(外観イメージ) #57 · AI for Science/医療テーマ
#57

発話の「まとまり」から精神病の発症をAIで読む——ハイリスク状態の発話の意味的一貫性・統語を定量し、発症移行と回復の軌跡を捉える

🔬 semantra.research / chr-speech-coherence
SEMANTRA — 精神病ハイリスクの発話AI
研究プロトタイプ ・ CHRの自由発話から意味的一貫性・統語を解析し発症移行を予測(ダミーデータ)
解析 1,900人 ・ 多施設・縦断
解析した発話(CHR)
1,900
多施設・縦断発話
発症移行の予測
AUC.84
発話・言語特徴
臨床面接のみ(従来)
AUC.71
▲ 主観で限界
外部・別設定で
AUC.74
▲ 言語・汎化が課題
発話の意味的一貫性トラジェクトリ+談話グラフ(ダミー)
線=文どうしの意味的なつながり(コサイン)。発話が進むにつれ低下し、ばらつきが増えて破線のしきい値を割ると移行リスクが上がる想定。右=話題のつながりを表す談話グラフ(細い線=弱い接続、赤=脱線)。
しきい値 脱線 発話の流れ(時間) → 意味的一貫性 談話グラフ タンジェント
意味的一貫性 しきい値 高リスク帯 談話グラフ
意味的一貫性 0.42cos低下
統語の複雑性 句長・限定詞単純化
発話のつながり 談話グラフ脱線
AI推定 発症リスク
移行
精神病への移行リスク
推定 0.61
意味的一貫性が低下・脱線が増加 ・ 縦断で悪化傾向 ・ ※診断でなく精神科医の面接補助に限定
発症移行・回復への寄与(特徴・上位)
値=言語特徴の機械学習で移行/回復に効いた寄与(SHAP、ダミー)。単一指標でなく「意味的一貫性の動態」と「日本語での汎化」が本丸。
1文間の意味的一貫性の低下70%
2一貫性の分散(ばらつき)の増大62%
3統語の単純化(句の短さ・限定詞減少)55%
4話の脱線・談話のつながりの弱さ48%
5発話量・休止・所有代名詞の減少40%
↑ 研究コード名「SEMANTRA」。CHRの自由発話から文間の意味的一貫性・統語・談話のつながりを定量し、
発症移行のリスクと回復・悪化の軌跡を「ことば」からAIで描いた完成イメージ。
精神病ハイリスク状態(CHR)の自由発話の意味的一貫性・統語をAIで定量し、発症移行のリスク回復・悪化の軌跡を「ことば」から描く——完成したらこう見える、の外観イメージ。
上限 500万円(直接経費) 学生応募可(医学生=当事者) e-Rad 応募 第2回・2026年6月上旬予定 分野:精神科・精神保健 × 発話/言語AI
🔬 問い・学術的背景

統合失調症などの精神病は発症前に「精神病ハイリスク状態(CHR)」を経るが、誰が・いつ発症へ移行するかの予測は今も臨床面接頼りで難しい。一方、思考のまとまりの乱れ(連合弛緩・脱線)は発話に表れ、意味的一貫性の低下や統語の単純化が発症移行と関連すると報告されてきた。だが評価は主観的で再現性が低い。発話から思考のまとまりを客観的に定量し、発症の前にリスクを層別できるか。精神保健は医学生にとっても身近で、画像でなく「ことば」という可視化しやすい対象が効く。

🎯 仮説・新規性

自由発話を文埋め込み(SBERT等)でベクトル化し、文間の意味的一貫性・その分散・統語複雑性・談話のつながりをグラフで表せば、臨床面接だけより一貫してCHRから発症移行を層別でき、同じ表現で回復・悪化の軌跡を縦断で描ける、と仮説。「重症度の推定」でなく「発症の前駆を発話構造で捉え軌跡化する」点が新規。

🤖 AI活用の必然性

文間の微妙な意味のずれや脱線、統語の単純化は人手では一貫して測れず、長い自由発話の動態は主観評価に埋もれる。文埋め込みとグラフ表現の機械学習でしか、意味的一貫性の低下と発症移行の関係、その個人内の軌跡は出せない=AIでしか届かない粒度。

💰 500万円の使途
  • ① 多施設のCHR発話音声/書き起こし・移行転帰・縦断評価の収集・匿名化・倫理審査(同意・配慮)
  • ② 日本語の発話アノテーションと意味的一貫性・統語の指標整備
  • ③ 別施設・別設定での外部検証と日本語モデルの構築
  • ④ 軌跡と根拠(脱線箇所)を示す説明可能UI試作
  • ⑤ GPU計算・プレプリント・可視化Web
📈 期待成果・社会実装(出口)

発話指標と発症移行・回復の軌跡=学会・論文。出口はまずCHR外来での経過モニタリング(面接の補助・変化の早期察知)と、専門医が少ない地域での相談支援。最終判断は精神科医が担い本企画は支援に限定。Hiroは精神科を学ぶ医学生=当事者で、若年のメンタルヘルスは社会的意義が大きい。

※ 正直な関門:CHRからの発症移行は数年で約2割と稀でデータ不均衡が大きく、過去研究は小標本で精度が楽観的に出やすい(100%等は要警戒)。発話指標は言語・文化・方言・録音設定に強く依存し、日本語資源が乏しい。「予測できる」と「早期介入で発症を防げる」は別で前向き検証が要る。診断ラベル自体が時間で変わり、若年・ハイリスク者への適用は偏見・倫理・同意の配慮が必須。診療実装はSaMD規制の対象で、学生応募は所属大学のe-Rad機関登録・承認が前提、第2回の正式日程は確定次第の確認が必要。
完成イメージ(ダミーデータ)・参照=CHRの自由発話音声/書き起こし・文埋め込み・意味的一貫性/統語・移行転帰 / 企画ログ → spread-plans.md #57