InsightTokとは？自己回帰型画像生成でテキスト・顔品質を高めるコンテンツ対応トークナイザ

コンテンツ対応の局所知覚損失をトークナイザ訓練に組み込み、16kコードブック・16倍ダウンサンプリング制約下でNEDベースの文字認識精度（1−NED）95.83%を達成
ArcFaceを用いた顔アライメント損失により、131kコードブックを持つEmu3.5-IBQを上回る顔類似度スコアを実現
GitHubにコード・モデルチェックポイントが公開済みで、InsightARシステムとの統合による生成品質向上を実証済み

研究の背景

自己回帰型画像生成（Autoregressive Image Generation）とは、画像をトークン列として扱い、言語モデルと同じ方式で逐次的に次のトークンを予測しながら画像を生成する手法です。大規模言語モデルの訓練パラダイムとの親和性が高く、近年急速に研究が進んでいます。

この手法の品質を左右するのが、連続画像を離散トークン列に変換するトークナイザの性能です。標準的な手法では画像を16分の1に縮小（16倍ダウンサンプリング）し、16,384エントリのコードブック（離散表現の辞書）に量子化します。しかしこの過程で、テキスト文字の輪郭が潰れて判読不能になったり、顔の繊細なディテールが失われたりする問題が顕著になっていました。

清華大学 LeapLab が提案するInsightTokは、この問題に正面から取り組んだコンテンツ対応トークナイザです。既存の制約（16kコードブック・16倍ダウンサンプリング）を維持したまま、テキストと顔の再現精度を大幅に改善します。

提案手法の概要

InsightTokの核心は、標準的なトークナイザ損失に「局所コンテンツ対応知覚損失（Localized Content-Aware Perceptual Loss）」を追加する点です。損失関数全体は次のように構成されます。

全体損失 = 画像レベル損失（再構成・コードブック・知覚・敵対的）+ α₁×テキスト損失 + α₂×顔損失

図1: InsightTokのフレームワーク全体像。標準損失に加え、テキスト領域損失（ℒtext）と顔領域損失（ℒface）を導入し、それぞれ専用の認識モデルで監督する

テキスト損失（ℒ_text）では、差分可能な二値化処理で画像内のテキスト領域を検出し、元画像と再構成画像から対応するパッチを切り出します。そのパッチを5層の隠れ層を持つ事前学習済み文字認識ネットワークに通し、特徴空間での差分を損失として計算します。極端に小さい文字インスタンスが学習を支配するのを防ぐため、各テキスト領域の面積比を重みとして用いるのがポイントです。

顔損失（ℒ_face）では、まず顔検出で5つのランドマーク（目・鼻・口角）を特定し、最適ランドマーク対応に基づく類似変換で顔領域を正準テンプレートにアライメントします。ポーズや拡大率のばらつきを除去した後、ArcFace（顔認識モデル）に通してアイデンティティ保存の観点から監督します。こちらも面積比に基づく重み付けを採用しています。

顔アライメントの仕組み

図2: 顔アライメントの処理。ランドマーク対応をもとに最適な類似変換を求め、正準テンプレートへ顔領域をワープする

訓練は3段階で実施されます。第1段階として標準損失のみで20万ステップ学習し、第2段階でテキスト・顔損失を追加した4万ステップ、第3段階としてデコーダの精緻化に4万ステップを費やします。モデル全体のパラメータ数は4億2600万、埋め込み次元は256です。

再構成品質の評価

画像再構成品質の評価には自己回帰型生成モデルの評価に広く使われる指標群に加え、テキストや顔に特化したTokBenchが用いられました。

図3: InsightTokと既存トークナイザ（LlamaGen、O-MAGVIT2、IBQ）との再構成品質比較。いずれも16kコードブック・16倍ダウンサンプリングで512×512の解像度

テキスト再構成精度では、IBQ-16kの2.28%に対してInsightTokは16.44%を記録し、全体平均で28.89ポイントの改善を達成しました。顔類似度では平均スコア0.36を達成し、コードブックが8倍以上大きい（131kエントリ）Emu3.5-IBQをも上回る結果となっています。汎用品質指標であるPSNRは23.64、rFIDは0.69と、既存手法と遜色ない水準を維持しています。

アブレーション実験では面積加重の重要性が確認されました。非加重で特殊損失を適用した場合、テキスト精度は改善するものの、rFIDが0.60から1.11へと悪化します。面積加重を導入することで、テキスト・顔の品質向上と汎用画像品質の維持を両立できることが示されました。

InsightARとの統合結果

InsightTokをベースに自己回帰型生成システム「InsightAR」を構築し、生成品質を評価しました。テキスト生成では、文字列間のNED（Normalized Edit Distance、正規化編集距離）から算出した認識精度（1−NED）が95.83%に達し、比較対象のLlamaGenTok-ARの79.86%を大きく上回りました。顔生成ではMagFaceスコア23.33を達成し、16倍ダウンサンプリングモデルの中で最高値となっています。