InterleaveThinkerとは？既存画像生成モデルにテキスト・画像交互生成を付与する強化学習手法

既存の画像生成モデル（FLUX等）の重みを変えずにそのまま活用し、テキストと画像を交互に生成する能力を付与するマルチエージェントフレームワーク
計画エージェントと批評エージェントをGRPO強化学習で訓練し、25回超の生成ステップを含む長い軌跡全体を単一の報酬シグナルで効率的に最適化
WISEベンチマークで0.47→0.73、RISEベンチマークで13.3→28.9へと大幅改善し、最前線モデルと同等の性能を達成

研究の背景

テキストと画像を交互に含むコンテンツを自動生成する「インターリーブ生成」は、ビジュアルストーリーテリングや操作マニュアル、段階的な作業ガイドなど幅広い場面で求められます。たとえば料理レシピで手順テキストと各ステップの完成画像を交互に生成するケースが典型例です。

従来のアプローチには2つの方向性がありました。テキスト・画像を統合的に扱う統合マルチモーダルモデル（Unified Multimodal Model、UMM）を構築する方法と、FLUXのような強力な専用画像生成モデルをそのまま使う方法です。しかし、UMMは多ステップの一貫した生成が苦手で、専用画像生成モデルはインターリーブ生成をそもそも想定していません。

図2: 専用画像生成モデルとUMMにおけるインターリーブ生成の問題点。赤枠でハイライトされた箇所に典型的な失敗パターンが示されている

専用画像生成モデルは文脈を保持しないため、前後のテキスト内容と無関係な画像を生成します。一方、UMMは生成途中の視覚的状態に過剰反応する「近視眼的」な問題があり、全体の計画を一貫して維持することが難しくなります。

InterleaveThinkerの構成

InterleaveThinkerは、上記2つの問題を分離して対処するマルチエージェントパイプラインです。中核となる役割は3つです。

計画エージェント（Planner）: 入力シーケンス全体を分析し、各ステップで画像生成器に渡す指示をあらかじめ一括生成する
生成器（Generator）: FLUX.2-kleinなどの既存画像生成モデルを重みを固定したまま使用し、指示に従って画像を出力する
批評エージェント（Critic）: 生成された画像が計画の意図からずれていないかを評価し、必要に応じて指示を修正・再生成を促す

図3: InterleaveThinkerの全体アーキテクチャ。tは修正のイテレーション回数を示す

計画エージェントがすべてのステップ指示をあらかじめ生成する設計により、中間の視覚状態に引っ張られる近視眼的な反応を防ぎます。批評エージェントはその後の実行監視を担い、計画と実際の出力の乖離を検出して指示を改善します。

図4: InterleaveThinkerの動作フロー。計画・生成・批評が繰り返しながら多ステップ出力を精製していく様子

強化学習による訓練設計

インターリーブ生成では1つのタスクに25回以上の画像生成器呼び出しが含まれる場合があります。すべてのステップに報酬を計算すると計算コストが膨大になるため、本研究では単一ステップの報酬で軌跡全体を最適化するGRPO（Group Relative Policy Optimization）を採用しています。

報酬は2種類を組み合わせています。正確性報酬（Accuracy Reward）は批評エージェントの判断精度を評価し、ステップ単位報酬（Step-wise Reward）は1回の修正によるスコアの改善量を測定します。両者を0.5ずつ重み付けして最終報酬を算出します。

図5: データ構築パイプラインの概要。SFT用とRL用の2系統でデータを整備する

訓練データには、テキスト中心の計画データ8万件（Interleave-Planner-SFT-80k）、高品質な軌跡データ11.2万件（Interleave-Critic-SFT-112k）、RL用の分散選択済みデータ1.3万件（Interleave-Critic-RL-13k）の3種類を構築しました。負の精製傾向を示すステップを除外し、判断クラスのバランスを調整することでデータ品質にも配慮しています。

実験結果

評価には推論型生成ベンチマーク（WISE）、推論型編集ベンチマーク（RISE）、インターリーブ生成評価（UEval）の3種類を使用しました。ベースモデルにFLUX.2-kleinを使用した結果、WISEの総合スコアは0.47から0.73に、RISEは13.3から28.9へと大幅に向上しました。

図6: 純テキスト入力での交互生成においてEmu3.5・Nano Banana Proと比較した結果

UEvalベンチマークではInterleaveThinker+FLUX.2-kleinが平均66.3を記録しました。比較対象のNano Banana Proの76.1には及ばないものの、専用モデルの重みを一切変更せず既製の画像生成器を活用するだけでこの差まで迫れる点は注目に値します。自己回帰型マルチモーダルモデルARMのような統合アーキテクチャと比べても、アプローチの異なる有力な選択肢として位置づけられます。

まとめと今後の展望

InterleaveThinkerは既存の画像生成モデルを改変せずにテキスト・画像の交互生成能力を付与できる点が最大の特長です。計画エージェントと批評エージェントの分業によって近視眼的な生成を克服し、GRPOによる効率的な強化学習で複雑な多ステップタスクを最適化しています。

一方、ベースとなる画像生成モデルの学習データに含まれない概念は生成できないという制約も明確にされています。この点はより多様な生成モデルと組み合わせることで段階的に緩和できる余地があります。コードはGitHubで公開されており、ビジュアルストーリーテリングや操作マニュアル生成など実用的な応用への展開が期待されます。