- 2^128サイズのバイナリコードブックを持つ視覚トークナイザー「UniWeTok」が、高忠実度再構成・意味理解・生成適性を単一モデルで同時実現
- REPA比8分の1以下の33Bトークンで訓練しながらFID 1.38を達成。DPGスコア86.63ではFLUX.1(83.84)を上回る
- Pre-Post蒸留と生成対応事前分布を組み合わせた3段階訓練フレームワークで、理解・生成・編集を統合したマルチモーダルLLMを構築
研究の背景
マルチモーダルLLM(画像とテキストを同時に扱う大規模言語モデル)の発展において、「視覚トークナイザー」は中心的な役割を担っています。トークナイザーとは、連続的な画像データを離散的なトークン(記号列)に変換し、LLMが処理できる形式にする仕組みのことです。
従来のトークナイザーには根本的なトレードオフが存在しました。高忠実度の画像再構成に特化した手法は意味理解の精度が低く、逆に意味抽出を重視した設計は細部の再現に弱いという問題です。結果として、画像の「理解」と「生成」を単一のシステムで高水準に扱うことは困難とされてきました。
研究チームはこの問題を解決するため、コードブック(トークンの語彙集)のサイズを根本から見直すアプローチを採択しました。従来手法が数千〜数万程度のコードブックサイズを使うのに対し、2^128という桁違いの規模を実現する「バイナリトークナイザー」を設計しています。2^128は地球上の砂粒の総数(約10^19個)をはるかに上回る天文学的に巨大な数であり、この膨大な表現空間が高精度な画像表現を可能にしています。
提案手法:UniWeTok

UniWeTok(Unified Weighted Tokenizer)の核心は、128ビットのバイナリコードを使ったトークン表現にあります。各トークンは128個の0か1からなるビット列で表現され、コードブックサイズは2^128通りという超大規模なものです。アーキテクチャは畳み込みネットワーク(局所的な特徴抽出が得意)とトランスフォーマー層(広域的な文脈理解が得意)を組み合わせたハイブリッド構造を採用しています。
独自の活性化関数「SigLu」も重要な革新点です。数式で表すとSigLu(x) = (1-e^x)/(1+e^x)となり、出力値を[-1, 1]の範囲に収めます。この設計により、バイナリ化の過程で生じる「コミットメント損失」と「トークンエントロピー損失」の最適化が相互に競合する問題を解消し、安定した学習を実現しています。

訓練には2つの中核的な工夫が組み込まれています。第一は「Pre-Post蒸留(Pre-Post Distillation, PPD)」で、事前学習済みの教師エンコーダから知識を転移させることで、バイナリトークンに豊かな意味情報を付与します。量子化の前後で特徴を意味的に整列させることで、ゼロショット分類精度を大幅に向上させています。
第二は「生成対応事前分布(Generative-Aware Prior, GAP)」で、バイナリトークンを用いた自己回帰生成手法BitDanceの軽量版モデルを補助的に活用します。次トークン拡散タスクを通じて生成目標を学習過程に組み込むことで、トークンが生成タスクにも適した分布を持つよう誘導しています。

訓練は3段階に分けて実施されます。まず基本的な画像再構成能力を獲得し、次に複数解像度への対応と顔・テキスト領域の精細化を行い、最後に意味理解と生成適性を統合するという順序です。この段階的なアプローチにより、REPA(比較手法)が必要とする262Bトークンの約8分の1以下となる33Bトークンだけで訓練が完了します。
実験結果

画像生成・再構成の品質指標であるFID(Fréchet Inception Distance、値が低いほど高品質)では1.38を達成し、比較手法REPAの1.42を上回りました。さらに注目すべきは訓練効率で、必要なトークン数を262Bから33Bへと約8分の1以下に削減しながら品質を向上させています。
テキスト指示に基づく画像生成を評価するDPG-Benchでは86.63を記録し、プロフェッショナル向け画像生成AI「FLUX.1 [Dev]」(83.84)を超えました。また画像編集の評価指標GEditスコアでは5.09を達成し、統合型生成モデル「OmniGen」(5.06)をわずかに上回っています。

推論時に使用するトークン数はわずか64トークンで、これは実用的な処理速度の確保にも貢献しています。また、比較対象にはLlamaGen、Janus、Chameleon、Emu3といった著名な統合マルチモーダルモデルが含まれており、複数の指標で競合手法を上回る結果が示されています。
まとめと今後の展望
UniWeTokは、これまでトレードオフとされてきた「再構成精度」「意味理解」「生成適性」を単一の視覚トークナイザーで同時に高水準で実現した点で重要な成果です。2^128という超大規模なコードブックを実現するバイナリ表現と、PPD・GAPという訓練上の工夫が相互補完的に機能しています。
訓練効率の大幅な改善(33B対262Bトークン)は、計算資源の制約が大きい環境でのマルチモーダルLLM開発に道を開くもので、研究コミュニティへの影響は小さくありません。一方で、2^128規模のコードブックを持つモデルの推論時メモリ消費や実際のデプロイ環境での応答速度、さらにビデオなど時間的次元を持つデータへの拡張については今後の検証が必要です。
マルチモーダルLLMの統一基盤として、UniWeTokのアプローチは今後の研究における重要な参照点となる可能性があります。理解・生成・編集の三機能を統合したシステムは、より自然な人間とAIのインタラクション実現に向けた着実な一歩といえるでしょう。


