- 新設計のMobile Conditioning Projector(MCP)でVLMの隠れ状態を直接拡散モデルに注入し、中間クエリトークン不要の軽量条件付けを実現
- GenEvalスコア74%を達成し、Show-OとJanusFlowを生成精度で5〜11%、7つの理解ベンチマーク平均で5〜15%上回る
- iPhone 17 Proで512×512画像を約3秒で生成でき、モデルコード・重み・モバイルアプリがすでに公開済み
研究の背景と課題
画像を入力として質問に答えたり、テキストから画像を生成したりする「マルチモーダルAI」の研究は急速に進んでいます。これらの能力を一つのモデルに統合するアプローチも登場しており、UniWeTokのようにバイナリトークナイザーで理解と生成を統合する手法なども提案されています。しかし、そのいずれも高い計算コストとメモリ消費を伴うため、スマートフォンなどのエッジデバイスへの搭載は現実的ではありませんでした。
クラウドに依存しないオンデバイスAIへの需要が高まるなか、「マルチモーダル理解と画像生成の統合」と「エッジデバイス上での実用的な速度」を同時に達成することが、本研究の主な目標です。
Mobile-Oのアーキテクチャ
Mobile-Oは、ビジョン理解モジュールと画像生成モジュールを一体化した統合モデルです。理解側にはFastVLM(画像エンコーダ)とQwen2-0.5B(言語モデル)を、生成側には線形拡散トランスフォーマー(DiT)のSANA-600MとVAEエンコーダ・デコーダを採用しています。総パラメータ数は1.6Bで、iPhone上でのメモリ使用量は2GB以下に収まります。

両モジュールを橋渡しするのが、本研究の核心的な提案であるMobile Conditioning Projector(MCP)です。MCPはVLMの最終K層から隠れ状態を抽出し、温度スケール付きソフトマックスで層ごとに重み付けして統合します。その後、深さ方向分離可能な1D畳み込みと軽量なチャネルアテンションで特徴を整形し、拡散モデルのクロスアテンション層に直接渡します。
従来の統合型マルチモーダルモデルの多くは、VLMと拡散モデルの間に「クエリトークン」と呼ばれる中間表現を挿入します。MCPはこのステップを省いて直接条件付けを行うことで、計算量とパラメータ数を大幅に削減しています。MCPのパラメータ数はわずか2.4Mであり、全体コストへの影響を最小限に抑えています。
3段階の統一学習パイプライン
Mobile-Oの学習は3つの段階で構成されています。第1段階では9Mサンプルを用いたクロスモーダル整合で、拡散モデルとMCPをVLMの出力表現に適応させます。第2段階では105Kサンプルによる監督付き微調整でさらに精緻化します。

第3段階では「四組形式(Quadruplet Format)」という新しいデータ構成を採用しています。各サンプルを(生成プロンプト、画像、質問、回答)の4つ組で構成し、画像からテキストへの理解損失(I2T損失)とテキストから画像への生成損失(T2I損失)を同時に計算します。一つの学習サンプルが理解と生成の両方を支えるため、限られたデータで効率的な多タスク学習が実現されます。
なお、46kサンプルの追加ファインチューニングで画像編集機能も獲得しており、テキスト指示に基づいて入力画像を編集するタスクにも対応しています。
実験結果と性能比較
画像生成の総合評価指標であるGenEvalでは、Mobile-O-0.5Bが0.74(74%)を達成しました。同規模の統合型モデルであるShow-O(0.69)を5ポイント、JanusFlow(0.63)を11ポイント上回っています。単一物体(0.98)や2物体(0.87)の描写、色の再現(0.86)で特に高いスコアを記録しています。
マルチモーダル理解の評価では、7つのベンチマーク平均で62.1%を達成し、JanusFlowを5.1ポイント、Show-Oを15.3ポイント上回っています。ChartQA(75.2%)やPOPE(86.4%)、TextVQA(67.8%)など幅広いタスクで安定した性能を示しており、OCRや視覚的推論でも競争力があります。

推論速度については、iPhone 17 Pro上で512×512画像の生成に約3秒、テキスト回答の初回トークン出力に248msを達成しています。Janusの11倍、JanusFlowの6倍高速な処理速度であり、民生デバイスでの実用的な動作を初めて示しています。MacBook M2 ProやJetson Orin Nanoでも同様の速度が確認されており、幅広いエッジ環境への展開可能性が示されています。
さらに大規模な構成であるMobile-O-1.5B(FastVLM-1.5B+SANA-1.5B、総計3.5B)でも同様の改善効果が確認されており、理解で66.2%、生成で78%を達成しています。スケールアップへの親和性も示されています。
まとめと今後の展望
Mobile-Oは、マルチモーダル理解と画像生成をiPhoneなどの民生デバイス上で統合するという、エッジAI研究の一つの到達点を示しました。Mobile Conditioning Projectorという軽量な設計原理によって、クラウドへの依存なしにリアルタイムに近いマルチモーダルAI処理を実現しています。
コード・モデル重み・モバイルアプリがすでに公開されており、研究の再現性と応用可能性は高いといえます。現状は512×512解像度の画像生成に限定されており、高解像度対応や動画生成への拡張は今後の課題として残っています。モデルの誤生成(ハルシネーション)への対策も引き続き必要です。プライバシー保護や低遅延が求められる医療・教育・クリエイティブ制作など、幅広い応用分野での活用が期待される研究です。
