- CivitaiなどのコミュニティLoRAを合成訓練データ生成の足場として活用し、スタイルと内容が対になったトリプレットデータセットを大量構築する独創的なアプローチを提案
- 注意機構レベルのスタイル漏出防止制約と周波数対応RoPE変調を組み合わせた2段階カリキュラム学習で、高品質なスタイル・コンテンツ分離を実現
- スタイル不変コンテンツ整合スコア(CAS)とVLM拒否スコアを新設し、生成品質の定量評価と低品質出力の自動除外を両立
研究の背景と課題
「このスタイルで、この内容を描いて」という指示を画像生成AIに与える場合、スタイル参照画像とコンテンツ参照画像の2枚を同時に入力するデュアルリファレンス生成が求められます。しかしこれを実現しようとすると、スタイル側の色・質感・構図がコンテンツ側の構造に染み出す「スタイル漏出」が大きな問題になります。
さらに深刻なのはデータ不足です。スタイルとコンテンツをラベル付きで分離した大規模データセットは存在せず、一から収集・アノテーションするコストは膨大になります。FreeStyleはこの2つの障壁に対して、大規模なLoRAエコシステムを逆手に取るという独創的なアプローチで挑みました。
LoRAを合成データの足場に
Civitaiをはじめとするコミュニティプラットフォームには、アニメ・水彩・写実など多様なスタイルを学習した数万本のLoRAが公開されています。FreeStyleはこれらLoRAを本来の「スタイル適用ツール」としてではなく、合成訓練データを生成するための足場として活用します。
具体的には、スタイルLoRAとコンテンツLoRAを組み合わせて「スタイル参照画像・コンテンツ参照画像・生成ターゲット画像」の3枚組(トリプレット)を大量合成します。LoRAと他のPEFT手法の比較研究でも示されているように、LoRAは特定の視覚的特徴を効率よくモデルへ注入できるため、この用途に非常に適しています。スタイルの異なる複数の基盤モデルにわたってペアを生成・フィルタリングするパイプラインを設計することで、多様性と品質を両立したデータセットを構築しました。
2段階カリキュラム学習
取得したトリプレットデータを使い、FreeStyleは2つのフェーズに分けた学習を行います。
第1段階では、注意機構(Attention)レベルのスタイル漏出防止制約を導入します。スタイル参照から来た特徴がコンテンツの空間構造に混入するのを、注意スコアの配分を制御することで抑えるのがポイントです。この制約を通じて、スタイルと構造が独立したクロスアテンション経路が形成されます。
第2段階では、周波数対応RoPE変調(Frequency-aware Rotary Position Embedding Modulation)を追加します。RoPE(位置情報の符号化方式)は画像内の空間位置を周波数成分として表現する方式で、スタイル参照とコンテンツ参照を混在させると位置ベースの漏出が起きる点が問題でした。この変調モジュールが周波数帯域を分けて漏出経路を遮断し、コンテンツの空間配置とスタイルの視覚的質感を分離して学習できる仕組みを提供します。

評価指標と実験結果
既存の評価手法はスタイルとコンテンツが混在した状態で測定するため、漏出を正確に捉えられません。そこでFreeStyleは2つの独自指標を新設しました。
- スタイル不変コンテンツ整合スコア(CAS): スタイルを変えても内容の構造がどれだけ保たれるかを測定する指標
- VLM(画像と言語を同時に扱う大規模視覚言語モデル)較正拒否スコア: モデルが低品質出力を自動識別・除外する精度を定量化した指標
実験では、注意レベル制約のみの構成、RoPE変調のみの構成、両方を組み合わせたフルモデルを比較検証しました。フルモデルはスタイル整合性・コンテンツ忠実性・テキスト指示への準拠の3軸すべてで最高スコアを記録し、2段階カリキュラムが互いに補完し合う効果が確認されています。複数の基盤モデル(FLUX系など)での検証も行われており、手法の汎用性の高さが裏付けられました。

まとめと今後の展望
FreeStyleが示した最大の知見は、「コミュニティの集合知をそのまま訓練データに変換できる」という発想の転換にあります。膨大なアノテーション工数を要する代わりに、すでに存在するLoRAエコシステムをデータ生成エンジンとして使い回すことで、多様で高品質なトリプレットを低コストで得られる点は実用上の大きな強みです。
注意機構レベルの制約と周波数対応RoPE変調を段階的に組み合わせるカリキュラム設計も、今後の画像生成研究に応用の余地があります。特に、スタイル転送・画像編集・キャラクター一貫性といった周辺タスクへの発展が有望です。コードはGitHubで公開されており、コミュニティによる再現・拡張も進みやすい環境が整っています。
