PixVerveとは？100メガピクセルのネイティブ画像生成を実現した新フレームワーク

9.5万枚の100MP超高解像度画像に7次元アノテーションを付与したデータセット「PixVerve-95K」をオープンに公開
3つの学習スキームで既存T2I基盤モデルを超高解像度に拡張し、L2PフレームワークはDemoFusion比156倍の高速化を実現
視覚品質と意味整合性の8指標を備える評価ベンチ「PixVerve-Bench」が人間評価と高い整合性を確認

研究の背景と課題

テキストから画像を生成する技術（Text-to-Image、T2I）は、FLUXやStable Diffusionといったモデルの登場で急速に普及しました。しかし現行のT2Iモデルは多くの場合1K〜2K程度の解像度にとどまっており、医療画像診断や高精細な商業デザイン、大判プリントといった分野が必要とする「超高解像度」の要件を満たせていません。

解像度を上げる試みはいくつか存在しましたが、主な障壁が2つあります。まず、100メガピクセル（約1億画素）以上の高品質な学習データがほぼ存在しないこと。次に、T2Iモデルが内部で使うAttention機構（画像の重要な部分に注目する仕組み）は計算量が解像度の2乗に比例して増加するため、超高解像度への拡張は計算コスト的に非常に困難であることです。

PixVerveはこの両課題を正面から解決しようとした研究で、データ・モデル・評価の3つを同時に整備した点が特徴的です。

PixVerve-95Kデータセット

PixVerve-95Kは、95,735枚の超高解像度画像で構成されたデータセットです。すべての画像が100MP（10K解像度前後）以上であり、既存の4Kクラスのデータセットを解像度・アノテーション量ともに大きく上回ります。

データ構築は5段階のパイプラインで進められます。PexelsやUnsplashなどのストックフォトサービスから約30万枚の原画像を収集し、露出・シャープネス・エントロピーなど5種類の並行検出で品質の低い画像を除去します。続いて2倍または4倍のスーパーレゾリューション処理で100MPに引き上げ、継ぎ目の連続性チェックや領域・インスタンス単位のアーティファクト検査で最終的な品質を確保します。

図2: PixVerve-95Kのキュレーションパイプライン。原画像収集・初期フィルタリング・超解像処理・品質検査・段階的キャプション付与の5段階で構成される

各画像には7次元の詳細なアノテーションが付与されています。基本的な視覚スコア（露出・シャープネスなど）、オブジェクトタグと境界ボックス、6軸の美的分析（構図・視覚要素・技術的精度・独自性・テーマ・感情）、インスタンスレベルの説明、平均234.1語の長文キャプション、そして簡潔な短文キャプションです。この豊富なアノテーションにより、後述する評価ベンチとの連携が可能になっています。

3つの学習スキーム

PixVerveでは、既存のT2I基盤モデルを100MP生成に拡張するため、3種類の学習スキームを提案・比較しています。

スキームI（全Attention Fine-tuning）は、FLUXなどの既存モデルを全パラメータまたはLoRAで直接ファインチューニングする手法です。事前学習済みモデルのセマンティック情報を最大限に保てますが、4K解像度の学習だけで2万GPU時間以上を要し、推論にも8GPUが必要なため、100MPへの対応は実用上困難です。

スキームII（Window-Attention改造）は、モデル内部のJoint Attentionをウィンドウ単位の局所Attentionに置き換えることで計算量を大幅に削減し、推論速度を約30%向上させます。ただし解像度が上がるにつれて生成品質が低下する課題があります。

スキームIII（L2P、パッチベース Pixel Diffusion）は、大きなパッチで全体構造を把握しつつ、軽量なヘッドで局所的な細部を精緻化するL2Pフレームワークを採用します。単一GPUでの推論が可能で処理時間は58〜88秒、従来手法のDemoFusionと比較して156倍の高速化を達成しており、100MP生成に最も現実的なアプローチとして評価されています。

PixVerve-Benchの評価体系

超高解像度T2I生成には、FIDやCLIPScoreといった従来の評価指標だけでは不十分です。PixVerve-Benchは、視覚品質と意味整合性を合わせた8つの指標で総合評価できるベンチマーク体系です。

視覚品質の評価には、分布の一致度を測るFID/FID_patch、知覚的な美しさを評価するLAION Aesthetic Predictor、テクスチャの豊かさを診断するGLCMスコア、そしてMLLM（大規模マルチモーダル言語モデル）が構造的整合性・視点の正確さ・照明・色調など9つのサブ次元を採点するMSFI（Multi-scale Fidelity Index）の4指標を使います。

意味整合性の評価には、短文キャプションとのシーンレベルCLIPスコア、長文キャプションとの細粒度な意味一致を測るFG-CLIP2スコア、指定された視覚要素の存在確認、そしてインスタンスの見た目や空間関係を階層的に評価するICS（Instance-centric Compliance Score）の4指標が含まれます。人間の好みによる評価との照合実験で、MSFIとICSのランキングが人間の評価と完全に一致することが確認されています。

実験結果

4K解像度での定量比較では、スキームI（LoRA）がFID_patch（40.433）と意味整合性（ICS 8.420）で優れた結果を示しました。一方、8K〜10K解像度ではスキームIのモデルが極端に性能が低下するのに対し、L2P（スキームIII）は8KでFID 134.635、10KでFID 159.212を維持しており、高解像度スケーラビリティで明確な優位性を示しています。

図3: 4K（4096×4096）解像度での各手法の生成品質比較。細部の再現性やテクスチャ品質の違いが確認できる

アブレーション実験では、長文キャプションの活用が全モデルで生成品質を一貫して改善することも確認されました。学習不要のベースライン（DemoFusionやLinFusion）はFID_patchでは競争力があるものの、意味整合性の指標では大きく劣ることが明らかになっています。視覚基盤モデルを活用した高精度画像生成トークナイザー「VFMTok」など、画像生成の効率化を目指す研究との組み合わせも今後の発展方向として注目されます。

まとめと今後の展望

PixVerveは、100MPというこれまでのT2I研究が踏み込んでいなかった解像度領域に取り組んだ研究です。PixVerve-95Kデータセット、3種類の学習スキーム、8指標の評価ベンチをセットで提供することで、超高解像度T2I研究のための基盤を整備しました。

現状では、L2Pアプローチでも局所的な細部の再現性に改善の余地が残されており、解像度とクオリティのトレードオフをさらに縮める研究が求められます。一方で医療画像診断、高精細な衛星写真解析、大判プリント向けデザイン生成など、100MP以上の解像度が実用上必要な領域での活用可能性は現実的なものとなりつつあります。データセットとベンチマークがオープンに公開されていることで、後続研究の加速も期待できます。