NITPとは？暗黙トークン予測でLLM事前学習を強化し推論コストゼロで精度向上

標準的な次トークン予測（NTP）が持つ表現空間の退化問題を、浅い層の表現を自己教師信号とした密な連続監督で解消する新手法NITPを提案
MMLU-Proで5.7%・C3で6.4%の絶対精度向上を達成しながら追加学習コストは2%のみで推論時の計算コストはゼロ
ICML 2026に採択済みでGitHubにコードを公開。既存の事前学習パイプラインにそのまま組み込める実用的な設計

研究の背景

大規模言語モデル（LLM）の事前学習では、「次のトークンを予測する」という目標（Next Token Prediction、以下NTP）が長年の標準手法として定着しています。しかしNTPは、出力ロジット空間における離散的な1ホット監督のみを提供するという構造的な制限を持ちます。モデルの内部表現（隠れ状態）そのものへの学習信号が乏しく、多くの自由度が未制約のまま残されます。

この制限が引き起こす現象として、研究チームは2つを報告しています。1つ目は有効ランクの急速な低下で、本来高次元で多様なはずの表現が低次元の部分空間に収縮します。2つ目は隣接する隠れ状態のコサイン類似度が上昇する異方性（anisotropy）の増大で、表現が互いに似通った退化した状態に向かいます。モデルは一貫したトークン予測精度を保ちながらも表現の豊かさを犠牲にできるという、NTPの構造的な欠陥から生じる現象です。

図1: NTPで学習したモデルの問題。（a）有効ランクの急落と（b）コサイン類似度の上昇が表現退化を示す。（c)（d）MoE・Denseモデルそれぞれでの性能比較

NITPの仕組み

NITP（Next Implicit Token Prediction）は、通常のNTP損失に加えて表現空間での密な連続監督を追加します。具体的には、モデルの浅い層（全体の深さの約20%の層）が出力する次トークン位置の表現を「暗黙的なトークン」として扱い、最終層の隠れ状態がそれをコサイン類似度損失で予測するよう学習させます。

損失の全体は L_total = L_NTP + λ・L_NITP という形で表されます。λは0.6〜1.0の範囲で安定して機能します。浅い層の表現には勾配を流さない「stop gradient」が適用されるため、ターゲット信号が安定します。投影ヘッドは学習時のみ使用され、推論フェーズでは不要になるため、追加の計算コストは一切発生しません。

なぜ浅い層が有効な教師信号になるのでしょうか。論文では3点の理由を挙げています。まず、浅い層は字義的な曖昧さを解消しながら細粒度の意味情報を保持しており、深い層より豊かな意味表現を持つことが知られています。次に、Transformerの学習では浅い層が先に収束する傾向があるため安定したターゲットを提供します。そして、同一モデルの中間活性化を流用するため外部モデルが不要です。このような特性から、論文では浅い層の表現を「セマンティクスアンカー」と呼んでいます。

「現在位置の表現（t→t）を揃える」のではなく「次のトークンの表現（t→t+1）を予測する」テンポラルシフトも重要です。アブレーション実験で、同一位置への整合は損失が下がるものの性能が低下することが確認されており、「次を予測する」という方向性こそが学習信号として機能する本質です。

図2: NITPの全体設計。浅い層の暗黙的表現を予測対象とし、最終層の隠れ状態をコサイン類似度損失で整合させることで表現空間の退化を抑制する

3フェーズの学習ダイナミクス

NITP損失の学習曲線は特徴的な3フェーズの挙動を示します。第1フェーズは「初期崩壊」で、ランダム初期化直後に隠れ状態も暗黙的ターゲットもほぼ等方的なため、損失が急速に低下します。第2フェーズは「一時的なハンプ（上昇）」で、浅い層がより構造化された表現を獲得し始めるとターゲット自体が変化するため損失が一時的に上昇します。第3フェーズは「安定収束」で、深い層が浅い層の定義する多様体に徐々に適応し、損失は0.05以下に安定低下します。

この3段階の挙動は、NITPの監督が静的な教師信号ではなくモデルの学習と共に発展するダイナミックな信号であることを示しています。浅い層の表現が成熟するにつれてNITPのターゲットが豊かになり、深い層はより高品質な信号に向けて表現を整形していきます。

図5: NITP損失の学習曲線。初期崩壊・一時的ハンプ・安定収束という3フェーズの特徴的な挙動を示す

実験結果

NITPの有効性は0.5Bから9BパラメータのMoE（Mixture of Experts）モデルとDenseモデル双方で検証されました。アーキテクチャを問わず一貫した改善が観察されています。

ベンチマーク	改善幅
MMLU-Pro	+5.7%（9B MoEモデル）
C3（中国語読解）	+6.4%
CommonsenseQA	+4.3%

追加の学習計算量は約2%にとどまり、推論コストはゼロです。損失重みλとターゲット層の選択に対して結果が安定しており、既存の事前学習コードへの組み込みが容易です。なお、外部モジュールを追加せずに表現学習の質を高めるアプローチはRepresentation Forcingなどの研究でも模索されており、NITPはLLM事前学習に特化した同方向の取り組みといえます。