声帯は発声中、毎秒100〜250回振動する。通常の喉頭内視鏡(約30fps)やストロボスコピーは「平均的な1周期」を疑似的に再構成しているにすぎず、左右非対称・粘膜波動・振動開始の遅延という本質は人の目とフレームレートの壁に阻まれている。嗄声(dysphonia)は声帯麻痺・ポリープ・痙攣性発声障害・早期喉頭癌・神経筋疾患まで原因が幅広いのに、初期評価はいまも"声の印象"と数フレームの観察に依存している。
喉頭ハイスピード内視鏡(HSV, 2,000〜20,000fps)の声門面積波形と左右声帯のエッジ変位を「ラリンゴバイブログラム(正規化した時空間表現)」に落とせば、左右の位相差・振幅比・周期ゆらぎが疾患群を分ける、と仮説する。深層学習による声門の自動セグメンテーションは検者非依存の精度に達しつつあり(U-LSTM等)、振動の時空間表現を疾患横断で解くのは萌芽段階。
毎秒数千枚・1発声で数万フレームを、声門輪郭の追跡という主観作業で人手処理するのは非現実的。微細な左右非対称や振動開始の遅延は人の知覚を超える。時系列ディープラーニングでしか定量できない=AIの必然。単なる「声の印象」では振動の左右差は見えない。
嗄声のレッドフラグ(喉頭癌・声帯麻痺)の拾い上げ、発声障害の病型鑑別の標準化、音声治療の客観的な効果判定。出口は耳鼻科・音声外来の評価支援と、神経筋疾患の音声スクリーニング。Hiro自身が医学生=喉頭診察を学ぶ当事者で、臨床の見え方とデータの両面に接地できる。