Moebiusとは？0.22Bの超軽量モデルで10Bクラスの画像修復品質を実現、推論速度15倍超

わずか0.22Bパラメータで産業用10Bモデル「FLUX.1-Fill-Dev」に匹敵する画像修復品質を達成
Local-λ Mix Interaction（LλMI）ブロックが空間文脈と意味情報を固定サイズ行列に圧縮し、メモリ効率を大幅改善
適応的多粒度蒸留により推論速度15倍超を実現し、個人開発者のGPUでも動作可能

研究の背景

画像修復（Image Inpainting）は、画像の欠損部分や不要なオブジェクトを周囲の文脈に沿って自然に埋める技術です。従来の高品質な画像修復モデルは10B（100億）パラメータ規模の大規模モデルが主流でしたが、推論に高性能GPUを必要とし、個人開発者やリソースが限られた環境では利用が困難でした。

一方で、軽量モデルは推論速度やメモリ効率に優れるものの、生成品質や文脈整合性で大規模モデルに劣るという課題がありました。特に顔画像や自然風景など、細部の質感や構造が重要な領域では、軽量モデルの性能不足が顕著でした。

図1: Moebiusの全体パイプライン。LDM（Latent Diffusion Model、潜在拡散モデル）フレームワークにLCG（Latent Categories Guidance）を組み合わせ、U-NetをLλMIブロックで構造的に再設計。適応的多粒度蒸留により軽量専門モデルを高容量教師モデルに整合させています。

本研究で提案された「Moebius」は、わずか0.22Bパラメータ（教師モデル比2%未満）で10Bクラスの生成品質を実現する画像修復フレームワークです。Local-λ Mix Interaction（LλMI）ブロックと適応的多粒度蒸留の2つの技術革新により、モデルサイズと性能のトレードオフを克服しています。

LλMIブロックの仕組み

Moebiusの中核技術であるLλMIブロックは、従来のAttention機構が抱えるメモリ消費問題を解決する新しいアーキテクチャです。従来のAttentionでは、画像の全ピクセル間の関係性を計算するため、計算量とメモリ使用量が画像サイズの2乗に比例して増加していました。

図2: Local-λ Mix Interaction（LλMI）ブロックの詳細アーキテクチャ。Local-λ、Interactive-λ、Mix-FFNの3つのサブモジュールで構成され、空間文脈と意味情報を固定サイズの線形行列に圧縮します。

LλMIブロックは3つのサブモジュールで構成されています。まず「Local-λ」モジュールが、局所的な空間文脈を固定サイズの行列λに要約することで、メモリ消費を大幅に削減。次に「Interactive-λ」モジュールが、LCG（Latent Categories Guidance）から得られる大域的な意味情報と局所文脈を統合し、文脈整合性を向上させます。最後に「Mix-FFN」がこれらの特徴を統合し、最終的な修復結果を生成する役割を担います。

図3: 潜在領域における局所文脈集約（Local-λ）とクロス埋め込み相互作用（Interactive-λ）の図解。両モジュールともλ行列を用いて空間文脈や大域事前分布を固定サイズに要約し、メモリ集約的なAttention計算を回避しています。

この設計により、Moebiusは画像サイズに対する計算量の増加を線形に抑え、高解像度画像でも効率的に処理できるようになりました。実際、0.22Bパラメータという極めて小さなモデルサイズでも、教師モデル（0.86B）と同等の表現品質を維持できることが確認されています。

適応的多粒度蒸留

軽量モデルが大規模モデルの知識を効率的に学習するため、Moebiusでは適応的多粒度蒸留（Adaptive Multi-Granularity Distillation）戦略を採用しています。従来の知識蒸留では、教師モデルの出力を一律に模倣するだけでしたが、この手法では複数のスケールで勾配ベースの損失を動的に調整します。

具体的には、潜在空間内で粗いスケールから細かいスケールまで段階的に特徴を整合させることで、軽量モデルでも教師モデルの複雑な表現能力を継承できるようにしています。この蒸留戦略により、パラメータ数を4分の1に圧縮しても、教師モデルと同等の活性化マップを維持できることが実証されました。

図4: 小さな特徴空間でも高い表現品質を維持できることを示す図。Moebius（0.22B）は教師モデル「PixelHacker」（0.86B）と非常に類似した活性化マップを複数の空間粒度で示しており、4分の1のアーキテクチャでも一貫した表現品質を維持しています。

この手法は[Variable-Width Transformers（>＜former）とは？×形設計でLLMのFLOPs 22%削減](/variable-width-transformers-x-shaped-llm-flops-kv-cache-reduction)のような軽量化アプローチと共通する思想を持ちつつ、画像修復という専門タスクに特化した最適化を実現しています。

実験結果

Moebiusの性能は、複数のベンチマークデータセット（Places2、CelebA-HQ、FFHQ）で検証されました。定量評価では、FID（Fréchet Inception Distance、生成品質の指標で低いほど良好）とLPIPS（Learned Perceptual Image Patch Similarity、知覚的類似度で低いほど良好）の2つの指標で、産業用モデル「FLUX.1-Fill-Dev」（11.9Bパラメータ）と同等以上のスコアを記録しています。

図5: 自然風景（Places2）と顔画像（CelebA-HQ、FFHQ）における最先端学術・産業手法との定性比較。Moebiusは自然風景・顔画像の両ドメインで一貫した文脈生成を実現し、色の不一致、ぼやけ、アーティファクト、意味的不整合、構造的混乱といった他手法の典型的な失敗例を回避しています。

推論速度では、教師モデル比で15倍以上の高速化を達成しました。これにより、個人開発者が所有する標準的なGPU（例：NVIDIA RTX 3090）でもリアルタイムに近い速度で高品質な画像修復が可能になります。

図6: 教師モデルおよび10Bレベルの汎用モデルに対するMoebius（0.22B）のユーザースタディ結果。Moebiusは教師モデルと同等の性能を示し、大規模汎用モデルを大幅に上回る結果となりました。特に顔画像シーンで優れた評価を得ています。

ユーザースタディでは、Moebiusが教師モデルと同等の評価を受け、10Bクラスの汎用モデルを大幅に上回る結果となりました。特に顔画像の修復では、肌の質感や髪の毛の細部まで自然に再現できる点が高く評価されています。

まとめと展望

Moebiusは、0.22Bという極めて軽量なパラメータ数で10Bクラスの画像修復品質を実現する画期的なフレームワークです。LλMIブロックによるメモリ効率化と適応的多粒度蒸留による知識継承により、軽量専門モデルが大規模汎用モデルに匹敵・凌駕できることを実証しました。

プロジェクトページ（https://hustvl.github.io/Moebius）では、より詳細な実験結果やデモが公開されています。今後は、動画修復や3D画像生成といった他の画像処理タスクへの応用が期待されるでしょう。軽量化技術の進展により、高度なAI画像処理が個人開発者やエッジデバイスでも利用可能になる未来が近づいています。