ByGとは？ペアデータ不要で画像・動画編集を実現するブートストラップ学習フレームワーク

編集前後のペア画像を一切必要とせず、画像・動画編集モデルを訓練できるByGフレームワークをICML 2026で発表
凍結した基盤モデルのEMAコピーが疑似ターゲットを生成し、循環一貫性と勾配ルーティングで訓練と推論のギャップを解消
動画編集ユーザー研究で平均75.3%の勝率を達成し、100万ペアで訓練された教師あり手法を上回る未知ドメインへの汎化を確認

研究の背景と課題

「この犬の写真をカートゥーン風に変えて」といった自然言語指示で画像や動画を編集する技術は、生成AIの主要な応用分野のひとつです。しかし、こうした編集モデルを訓練するには、従来の手法では「編集前」と「編集後」が対応した大量のペアデータが必要でした。

ペアデータの収集は容易ではありません。同一シーンの現実写真とカートゥーン版を何百万枚も用意するには、人手や合成処理に多大なコストがかかります。特に、マンガ風・油絵風・特定ゲームのグラフィックスといった珍しいスタイルでは、ペアデータはほぼ存在しません。

NVIDIAとTel Aviv大学の研究チームは、この根本的な課題を解決するフレームワーク「Bootstrap Your Generator（ByG）」をICML 2026に発表しました。凍結した基盤モデルだけから学習信号を作り出すことで、ペアデータへの依存を完全に排除しています。

図1: ByGの概要。左から教師あり学習・外部モデルガイダンス・ByGの訓練信号の違いを示し、右は実際の画像・動画編集サンプル

Flow Matchingとは

ByGを理解するうえで欠かせない概念が「Flow Matching」です。Flow Matchingとは、画像生成モデルの訓練手法の一種で、ランダムなノイズからクリーンな画像へと至る「移動経路（フロー）」をモデルが学習するアプローチです。ノイズを一気に除去するのではなく、段階的な変化のルールを学ぶことで高品質な出力が得られます。

ByGはFLUX.1-dev（画像）とWan2.2（動画）というFlow Matchingベースの大規模基盤モデルを出発点とし、これを編集モデルへと発展させます。

ByGの3つの構成要素

ByGは3つの仕組みを組み合わせて、ペアデータなしでの学習を実現します。

疑似ターゲットの自己生成（ブートストラッピング）: 訓練中のモデルの重みを指数移動平均（EMA）で平均化した「凍結コピー」を用意します。このコピーが編集指示に従って疑似的な「編集後画像」を複数ステップで生成し、それが訓練用の目標として使われます。外部データも外部報酬モデルも不要で、モデル自身が自らの教師になります。

事前損失（Prior Loss）による編集方向の制御: 凍結された元のText-to-Image（T2I）モデルが持つ「テキスト指示への理解」を活用します。「ソースプロンプトからターゲットプロンプトへの変化方向」を計算し、編集モデルの出力がその方向と一致するよう学習させます。これにより、基盤モデルの豊かな意味理解を編集に引き継ぎます。

循環一貫性損失（Cycle Loss）による元構造の保存: 「画像Aを指示で画像Bに編集し、逆指示で再びAに戻せるか」という一貫性を損失関数として活用します。スタイルを変えても人物の姿勢や背景の構造が崩れないよう、元のコンテンツを保つ制約が自動的に生まれます。

図2: ByGの手法概要。上段が従来の教師あり学習、下段がByGのペアなし訓練パイプライン。EMAコピーが疑似ターゲットを生成し、事前損失と循環一貫性損失で訓練する

勾配ルーティングの役割

ByGが解決しなければならなかった技術的難題のひとつが、「訓練時と推論時の不一致」です。Flow Matchingでは訓練時に1ステップ予測を行いますが、この予測はぼやけていることが多く、推論時の多ステップサンプリングで得られるシャープな出力とは大きく異なります。

ByGはこの問題を「勾配ルーティング」で解決します。前向き計算（条件として与える入力）では多ステップサンプリングのクリーンな出力を使い、後向き計算（勾配の逆伝播）では1ステップ予測を経由させます。推論時と同じ品質の条件で学習しながら、勾配も適切に流せる仕組みです。Straight-Through Estimatorと呼ばれる近似技法の応用で、訓練と推論のギャップを橋渡しします。

図7: 1ステップ予測と多ステップ予測の比較。1ステップはぼやけており、勾配ルーティングがこのギャップを解消する

実験結果

ByGの有効性は、画像・動画の両方で検証されています。実装にはLoRA（Low-Rank Adaptation。大規模モデルを少ないパラメータで効率的に追加学習する手法。ここではランク64を使用）というファインチューニング手法を採用し、画像モデルで3万ステップ、動画モデルで750ステップという少ない訓練で効果を実証しました。

動画スタイル変換のユーザー研究では、カートゥーン→フォトリアルで70.0%、フォトリアル→カートゥーンで80.5%の勝率を達成し、100万ペアの訓練データを使った教師あり手法（Ditto）を上回りました。平均勝率は75.3%です。

図4: 動画編集の定性的結果。ByGはターゲットスタイルに忠実でありながら、元の動きや構造を保持している

特に注目を引くのが、GTA VやMinecraftといった珍しいスタイルへの汎化性能です。訓練時に一切見ていないスタイルに対して、VIEScore（AIによる視覚品質評価指標）で方向スコア7.67・品質スコア8.99を達成し、教師あり手法のKontextを超えました。動画拡散モデルの効率化を追求するVideoMLAなど、拡散モデル分野の研究は多様な方向で進んでいますが、ByGはデータ収集コストという根本課題に切り込んでいます。

図5: 長尾スタイル編集の定性的結果。GTA VやMinecraftなど訓練未使用のスタイルでも忠実な変換を実現

アブレーション分析

各コンポーネントの貢献は、要素を一つずつ取り除く実験で確認されています。規則化を外すと、モデルが入力をそのまま出力する「恒等マッピング崩壊」に陥り、編集スコアが8点台から0.63まで急落しました。ブートストラッピング自体を取り除くと、編集の成功率が大幅に低下します。

勾配ルーティングや循環損失を外すと、編集は強くなる一方で元画像の細部保存が劣化します。3つすべてが揃うことで初めて、「しっかり編集しつつ元の構造を保つ」バランスが実現します。

図6: アブレーション結果。各コンポーネントを削除した場合の影響を可視化。勾配ルーティング・循環損失・方向損失が編集品質と元構造保存のバランスに寄与

まとめと今後の展望

ByGは「大量のペアデータが必要」という画像・動画編集モデル訓練の常識を覆しました。Flow Matchingベースの基盤モデルが持つ意味理解を活かし、ブートストラッピング・循環一貫性・勾配ルーティングを組み合わせることで、外部データや外部報酬モデルなしに高品質な編集を実現しています。

データが希少なニッチスタイルや、特定業界の専門的な編集タスクへの応用が期待されます。ただし現時点では、FLUXやWan2.2という特定のFlow Matchingモデルへの依存があり、他のアーキテクチャへの拡張が今後の課題です。訓練に8枚のH100 GPUを要するという計算コストも、個人や小規模チームには高いハードルです。ペアデータ収集コストの削減という恩恵が、どの規模の研究者・開発者にまで届くかが今後の焦点となるでしょう。