血液は「免疫の履歴書」——TCR/BCR配列を「言語」として表現学習し、レパトアから免疫履歴を読む

🔬 immunolm.research / immune-repertoire-lm

🧬

ImmunoLM — 免疫レパトア言語モデル

研究プロトタイプ・公開TCR/BCRレパトア＋日本人パイロットを解析（ダミーデータ）

解析配列 3.8億本

解析したTCR/BCR配列

3.8億本

解析した検体（レパトア）

1,240検体

免疫履歴の推定

AUC.88

▲ 既往感染・ワクチン

日本人HLA較正

+.07

▲ AUC改善 vs 欧米モデル

免疫レパトアの潜在地図（配列言語モデルの埋め込み）

点＝T細胞クローン／色＝AIが推定した抗原特異性クラスタ／大きさ＝そのクローンの増殖。同じ特異性が配列空間で寄り集まる。

CMV SARS-CoV-2ワクチン EBV インフルエンザ自己反応疑い未同定大きさ＝クローンの増殖

読み取れた免疫履歴（この検体・較正済み確信度）

レパトア全体の埋め込みから、検体レベルで既往・応答シグネチャを推定。確信度は等高線較正済み。

1CMV 既感染シグネチャ（大規模クローン増殖）.94

2SARS-CoV-2 ワクチン応答クローン.88

3EBV 既感染.81

4インフルエンザ反復曝露.66

!自己反応性クローンの増加（要検証・参考値）.41

↑ 研究コード名「ImmunoLM」。公開TCR/BCRレパトアと日本人検体を"言語モデル"で表現し、
血液から免疫の履歴（既往感染・ワクチン応答・自己反応）を読む完成イメージ。

末梢血のTCR/BCRレパトアは「過去に何に出会ったか」を映す免疫の履歴書。配列を言語とみなす表現学習でレパトアから既往感染・ワクチン応答・自己反応のシグネチャを較正済み確率で読み、日本人HLAで公平に較正する——完成したらこう見える、の外観イメージ。

上限 500万円（直接経費）学生応募可（医学生＝当事者） e-Rad 応募第2回・2026年6月上旬予定分野：免疫学 × 表現学習

🔬 問い・学術的背景

T細胞・B細胞はそれぞれ固有の受容体（TCR/BCR）配列を持ち、その総体（レパトア）は「過去にどんな感染・ワクチン・自己反応に出会ったか」という個人の免疫履歴を映す記録だと考えられる。だがTCR配列がどの抗原に結合するかの対応はごく一部しか分かっておらず、レパトア全体から免疫状態を読み解くことは未解決の難問。

🎯 仮説・新規性

TCR/BCR配列を"言語"とみなす大規模配列モデル（protein language model）で表現すれば、①個々のクローンの抗原特異性クラスタ、②検体レベルの既往感染・ワクチン応答・自己反応シグネチャを較正済み確率で読み取れる、と仮説。新規性は「単一TCRの特異性予測」でなく"レパトア全体→免疫履歴"の読み取り、そして抗原提示はHLA拘束性ゆえ日本人に多いHLA（A*24:02 等）で較正する公平性の担保。

🤖 AI活用の必然性

TCRの配列空間は天文学的（個人ごと数百万クローン）で特異性ラベルは疎。人手の規則では到底読めず、大量の未ラベル配列から文脈表現を学ぶ自己教師ありの言語モデルと転移学習が必須。集計統計では「誰の免疫が何を覚えているか」は出てこない＝AIでしか到達できない粒度。

💰 500万円の使途

① GPU計算（言語モデルの事前学習・微調整）
② 公開レパトアの統合・キュレーション（ImmuneCODE/iReceptor/VDJdb/IEDB）
③ ごく小規模の日本人パイロット検体の免疫シーケンス（既存コホート連携・N限定）
④ HLAタイピング連結・アノテーション
⑤ プレプリント・可視化Web・学会発表

📈 期待成果・社会実装（出口）

"血液から免疫履歴を読む"基盤＝ワクチン応答評価・自己免疫/がん免疫の早期シグネチャ・感染症サーベイランスへの布石。まずは公開データで再現可能な表現学習＋日本人較正のベンチマークを論文化。Hiroは医学生＝免疫学のドメインと"当事者世代（ワクチン・COVID）"の両面で語れる。

※ 正直な関門：①データはスマホでなく免疫シーケンス（ウェット）が前提＝公開データ中心で進めるが日本人レパトア＋HLA連結データは乏しい ②特異性ラベル(VDJdb等)が疎・偏り、ペア鎖(α/β)データが少ない ③CMV既感染・加齢・施設バッチがレパトアを強く規定する交絡 ④臨床応用は遠く"萌芽=基礎"側に留まる ⑤学生応募でも所属大学のe-Rad機関登録・倫理審査が前提。第2回の正式日程・公募要領は確定次第の確認が必要。

完成イメージ（ダミーデータ）・元データ資産＝公開免疫レパトア＋日本人パイロット／企画ログ → spread-plans.md #105