うつ病の重症度評価はPHQ-9など主観的な自己・他者評価に依存し、客観指標が乏しい。声には抑揚(韻律)・発話速度・間・声質、言葉には否定語・一人称・意味的一貫性など状態を映す手がかりがあるとされるが、(1)どの音響・言語特徴がうつ重症度を駆動するか、(2)日本語特異性(助詞・敬語・間)でどう変わるか、(3)受診前の悪化を先取りできるかは未確立。精神科は国試頻出、医学生自身のメンタルヘルスも切実な当事者テーマ。
自然発話に音響+言語のマルチモーダル学習を適用すれば、(1)うつ重症度を客観スコア化しPHQ-9と対応づけられ、(2)韻律の平板化・ポーズ増加・否定語などの寄与を解釈でき、(3)受診前の悪化の予兆を縦断で捉えられる、と仮説。海外で音声バイオマーカー(Ellipsis Health等)の先行はあるが、日本語の臨床ラベル付き縦断+解釈可能性+cross-cultural一般化は空白。
うつのサインは多次元の微細な音響・言語特徴に分散し、人の主観評価では揺れる。マルチモーダル学習でしか、再現性ある重症度推定と受診前の早期悪化検出はできない。
うつ重症度の客観スコア↔PHQ-9対応+日本語ベンチマーク=学会発表・論文。加えて受診間隔の最適化や悪化の早期警告の土台。Hiroは精神科を学ぶ医学生=当事者。