Sapiens2とは？MetaのヒューマンAI基盤モデルが5Bパラメータ・4K解像度で姿勢・法線・点群推定を統合

10億枚の高品質人物画像で事前学習した0.4B〜5Bパラメータの統合基盤モデルで、姿勢推定+4 mAP・法線推定誤差45.6%削減を前世代から達成
マスク画像再構成と自己蒸留コントラスト学習を組み合わせた統合目的関数が、ピクセルレベルの細部と意味的な人体構造を同時に学習する核心技術
姿勢・セグメンテーション・法線推定に加えポイントマップとアルベド推定という新タスクも統合し、ICLR 2026に採択

研究の背景と課題

人間の姿勢や体表形状を高精度に推定する技術は、映像制作・AR/VR・ヒューマノイドロボットなど幅広い分野の基盤となります。従来の手法では、姿勢推定・身体パーツセグメンテーション・表面法線推定といった個別タスクに対して別々のモデルを用意する必要があり、開発コストの増大と推論効率の悪さが課題でした。

MetaのFacebook Researchが発表した初代Sapiensは、Vision Transformer（ViT：画像をパッチ分割してAttentionで処理するアーキテクチャ）ベースの人体理解モデルとして注目を集めましたが、解像度やパラメータ規模、対応タスク数に限界がありました。Sapiens2はその後継として、より高解像度・大規模なモデルで前世代の課題を包括的に解消しています。

事前学習の核心：Humans-1Bデータセット

Sapiens2の性能向上の鍵は、約40億枚の人物画像から多段階フィルタリングで厳選した約10億枚の高品質データセット「Humans-1B」にあります。フィルタリングには知覚的ハッシング・CLIPによる特徴類似度評価・美的スコアリングを組み合わせ、多様性と質を両立させています。

事前学習の目的関数は、マスク画像再構成（MAE）と自己蒸留コントラスト学習（CL）を組み合わせた統合損失 ℒ = ℒMAE + λℒCL で定義されます。MAEがピクセルレベルの細部（テクスチャ・輪郭）を学習し、コントラスト学習が人体の意味的な構造（手足の位置関係・体型のパターンなど）を把握する役割を担います。両者の組み合わせにより、低次元の視覚ディテールと高次元の意味表現を単一モデルが同時に獲得できる点が、Sapiens2の差別化要因です。

図1: Sapiens2の事前学習パイプライン。40億枚からフィルタリングした1B枚の人物画像で統合損失を用いてViTを事前学習し、複数タスクへ転用する

アーキテクチャの刷新

モデルはVision Transformerをベースに、複数の重要な改良を加えています。レイヤー正規化をRMSNorm（Root Mean Square Normalization）に置き換えることで学習安定性が向上し、グループ化クエリアテンション（GQA）とQK-Normの組み合わせによって大規模パラメータでの安定した訓練が実現しました。

4K解像度（4096×3072ピクセル）の処理には、ウィンドウ付きセルフアテンション（Window Self-Attention）を採用しています。全ピクセル間で注意を計算する通常のAttentionは計算量が爆発的に増加しますが、入力を局所ウィンドウに分割することで現実的なコストで長い空間コンテキストを扱えます。モデルファミリーは0.4B・1B・3B・5Bのパラメータバリアントを揃え、最大の5Bモデルは約15.7TFLOPsの計算量を持ちます。

実験結果

各タスクで前世代Sapiensを大幅に上回る性能向上が確認されました。姿勢推定では最大+4 mAPの改善、身体パーツセグメンテーションでは+24.3 mIoUという顕著な向上が示されました。法線推定では角度誤差が45.6%削減されて7.12度を達成し、体表面の細部を精密に捉える能力が飛躍的に高まりました。

新たに追加されたポイントマップ推定（L2誤差0.178）とアルベド推定（MAE 0.01224）は、いずれも既存手法を超える最先端の精度です。ポイントマップは各ピクセルの3D空間座標を推定するタスクで、4Dポイントクラウドを活用した動的シーン再構成などの下流タスクへの応用が期待できます。アルベド推定は照明の影響を取り除いた固有の表面色を復元する技術で、リアルなCGレンダリングや映画のビジュアルエフェクト制作に不可欠な情報を提供します。

図2: 前世代Sapiensとの性能比較。姿勢・セグメンテーション・法線推定すべてで大幅改善を達成し、点群推定とアルベド推定という2つの新タスクも追加された

まとめと今後の展望

Sapiens2は、人体理解という特定ドメインに特化した基盤モデルの有効性を示す重要な研究です。事前学習データの大規模化・アーキテクチャの近代化・タスク統合という3方向の改善を組み合わせることで、単一モデルが映画制作からロボティクスまで幅広い用途に対応できることを実証しています。

GitHubでのコード公開により、研究者や開発者がすぐに活用できる環境が整っています。4K解像度での精密な人体理解は、次世代のヒューマノイドロボット制御やメタバース内のリアルなアバター生成といった用途においても大きな意義を持ちます。ICLR 2026への採択は、手法の新規性と信頼性を学術コミュニティが認めた証です。