- 従来のコードブック方式に代わり、2の256乗もの状態を表現できるバイナリトークンを採用した新しい画像生成手法
- ImageNet 256×256でFID 1.24を達成し、自己回帰モデルとして最高性能を記録
- 260Mパラメータで既存手法(1.4Bパラメータ)を上回り、最大30倍の高速化を実現
研究の背景
自己回帰(AR)モデルは、テキスト生成で大きな成功を収めたTransformerアーキテクチャを画像生成にも応用するアプローチとして注目されています。従来のAR画像生成では、まず画像をベクトル量子化(VQ)によって離散的なトークンに変換し、次にそのトークン列を一つずつ予測していく方式が主流でした。
しかし、この方式にはいくつかの課題があります。VQでは有限個のコードブック(辞書のようなもの)からインデックスを選択するため、表現できる状態数に限りがあり、画像の細かなニュアンスが失われやすいという問題がありました。また、トークンを一つずつ順番に生成するため、高解像度画像の生成には膨大な時間がかかります。
こうした課題に対し、中国科学技術大学や香港中文大学などの研究チームが提案したのが「BitDance」です。コードブックのインデックス予測という従来の枠組みを根本から見直し、バイナリトークンという新しい表現方法で画像生成の品質と速度を大幅に改善しました。
提案手法
BitDanceの核心は、画像を「バイナリトークン」という新しい形式で表現する点にあります。従来のVQトークンが数千〜数万個のコードブックエントリから1つを選ぶのに対し、バイナリトークンは256ビットの二値表現を用いることで、1トークンあたり最大2の256乗という天文学的な数の状態を表現できます。これにより、はるかにコンパクトでありながら高い表現力を持つ離散表現が実現されました。

しかし、2の256乗もの状態空間からトークンを予測するのは、従来のsoftmax分類では到底扱えません。そこでBitDanceは「バイナリ拡散ヘッド」を導入しました。これは、離散的な分類問題を連続空間での拡散過程(ノイズの付加と除去を繰り返すプロセス)に置き換える仕組みです。拡散モデルの柔軟性を活かすことで、膨大な状態空間からでも高精度なトークン生成が可能になっています。
さらに、推論速度を飛躍的に向上させる「Next-Patch Diffusion」という手法も提案されました。従来のARモデルがトークンを1つずつ逐次的に生成するのに対し、この手法では複数のトークンを同時並行で予測します。これにより、生成品質を維持しながらも大幅な高速化を達成しています。

実験結果
BitDanceはImageNet 256×256ベンチマークにおいて、FID(Fréchet Inception Distance、値が小さいほど生成画像の品質が高い)1.24を達成しました。これは自己回帰モデルとして最高性能であり、拡散モデルなど他のパラダイムのモデルとも競合できる水準です。
モデル | パラメータ数 | FID ↓ | 特徴 |
|---|---|---|---|
BitDance | 260M | 1.24 | バイナリトークン + 拡散ヘッド |
既存ARモデル(代表例) | 1.4B | 1.24以上 | コードブック方式 |
特筆すべきは、BitDanceが260Mパラメータという比較的小規模なモデルで、1.4Bパラメータの既存手法を上回る性能を発揮している点です。パラメータ数は約5.4分の1でありながら、推論速度は8.7倍に向上しました。計算リソースの効率性という観点でも大きな進歩といえるでしょう。
高解像度画像生成においても印象的な成果が報告されています。テキストから1024×1024の画像を生成するタスクでは、従来のARモデルと比較して30倍以上の高速化を実現しました。高解像度になるほどトークン数が増大するため、並列生成のメリットがより顕著に現れる結果となっています。
まとめと今後の展望
BitDanceは、自己回帰画像生成における「コードブックからのインデックス予測」という定番のアプローチを刷新し、バイナリトークンとバイナリ拡散ヘッドの組み合わせという新たなパラダイムを提示しました。品質(FID 1.24)、効率性(5.4倍のパラメータ削減)、速度(最大30倍の高速化)のすべてにおいて優れた成果を示しています。
GitHubでコードと学習済みモデル(14Bパラメータを含む4種類)が公開されており、研究コミュニティでの再現性と発展性が確保されている点も評価できます。一方で、バイナリ拡散ヘッドの追加による学習コストの増加や、Next-Patch Diffusionにおける並列予測精度の限界など、さらなる検証が必要な側面もあるでしょう。
バイナリ表現という根本的な設計変更が画像生成に大きなブレイクスルーをもたらしたことは、他のマルチモーダル生成タスク(動画、3Dなど)への応用可能性も示唆しています。今後、この手法が自己回帰生成モデルの新たな標準となるか、注目されます。
