T細胞・B細胞はそれぞれ固有の受容体(TCR/BCR)配列を持ち、その総体(レパトア)は「過去にどんな感染・ワクチン・自己反応に出会ったか」という個人の免疫履歴を映す記録だと考えられる。だがTCR配列がどの抗原に結合するかの対応はごく一部しか分かっておらず、レパトア全体から免疫状態を読み解くことは未解決の難問。
TCR/BCR配列を"言語"とみなす大規模配列モデル(protein language model)で表現すれば、①個々のクローンの抗原特異性クラスタ、②検体レベルの既往感染・ワクチン応答・自己反応シグネチャを較正済み確率で読み取れる、と仮説。新規性は「単一TCRの特異性予測」でなく"レパトア全体→免疫履歴"の読み取り、そして抗原提示はHLA拘束性ゆえ日本人に多いHLA(A*24:02 等)で較正する公平性の担保。
TCRの配列空間は天文学的(個人ごと数百万クローン)で特異性ラベルは疎。人手の規則では到底読めず、大量の未ラベル配列から文脈表現を学ぶ自己教師ありの言語モデルと転移学習が必須。集計統計では「誰の免疫が何を覚えているか」は出てこない=AIでしか到達できない粒度。
"血液から免疫履歴を読む"基盤=ワクチン応答評価・自己免疫/がん免疫の早期シグネチャ・感染症サーベイランスへの布石。まずは公開データで再現可能な表現学習+日本人較正のベンチマークを論文化。Hiroは医学生=免疫学のドメインと"当事者世代(ワクチン・COVID)"の両面で語れる。