MolmoAct2とは？GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説

VLMバックボーンMolmoERが13の身体推論ベンチマークでGPT-5とGemini Robotics ER-1.5を上回り、7つのベンチマークでPi-0.5を凌駕する性能を達成
Flow MatchingとVLMを層ごとのKV接続で統合する新アーキテクチャにより、自然言語指示からの連続ロボット軌跡予測を実現
720時間の双腕操作データセット・訓練コード・OpenFASTトークナイザーを含む全成果を完全オープン公開

研究の背景と課題

ロボット工学とAIの融合が急速に進む中、Vision-Language-Action（VLA）モデルは自然言語の指示を受け取り、視覚情報をもとにロボットアームを動かす技術として注目されています。しかし高性能なVLAモデルの多くはクローズドソースであり、研究者が独自に改良や検証を行うことが難しい状況が続いていました。

加えて、高価な専用ハードウェアへの依存や推論レイテンシーの高さも実用化の壁となっています。Allen AI（Ai2）が2025年5月に発表したMolmoAct2は、こうした課題をまとめて解決する完全オープンなVLAモデルです。モデル重みから訓練コード、大規模データセットまで一括公開することで、低コストロボットでも本格的なロボット制御AIを研究できる基盤を整えました。

図1: MolmoAct2のシステム概要。低〜中コストの3種ロボットプラットフォームで収集したデータを基に訓練し、双腕YAM・SO-100/101・DROID Frankaで実環境タスクに即時展開できる

MolmoERの体現型推論性能

MolmoAct2の中核となるのが、空間・身体推論に特化したVLMバックボーン「MolmoER」です。330万サンプルからなる専用コーパスを用い、まず空間推論に特化させてから汎化能力を補完する「specialize-then-rehearse」レシピで訓練されています。

学習の柱は6つに分類されます。画像を使った身体QA、指差し定位、物体検出、動画を使った身体QA、マルチ画像推論、そして抽象推論です。この体系的な訓練により、MolmoERは13の身体推論ベンチマーク全体でGPT-5とGemini Robotics ER-1.5を上回る成績を達成しています。

VLMとFlow Matchingの統合

MolmoAct2のアーキテクチャは、事前学習済みのVLMバックボーンとDiT（Diffusion Transformer）スタイルのアクションエキスパートという2つのコンポーネントで構成されます。両者をつなぐ仕組みが層ごとのKV接続です。

VLMの各トランスフォーマー層から生成されるキー（K）と値（V）テンソルを線形投影し、対応するアクションエキスパート層のクロスアテンションに直接渡します。これにより、視覚・言語の文脈が連続的な動作制御へとシームレスに伝わります。アクションエキスパートはFlow Matchingで訓練され、ノイズの乗ったアクションチャンクを滑らかなロボット軌跡へと変換します。

訓練時にはVLMも離散アクショントークンの次トークン予測で同時監督されますが、エキスパートへの入力から正解の離散トークンがマスクされるため、連続アクション予測が離散トークンに依存せず独立して学習される設計になっています。

図2: MolmoAct2の詳細アーキテクチャ。VLMバックボーン各層のKV出力がアクションエキスパートのクロスアテンションへ接続され、Flow Matchingで連続軌跡を生成する

独自データセットとOpenFAST

MolmoAct2では3種の新規データセットも公開されています。最大の柱は「MolmoAct2-BimanualYAM」で、双腕ロボットYAMを使った720時間・3万4500エピソードの遠隔操作軌跡を収録した現存最大規模のオープン双腕データセットです。機材一式の購入費用は6000ドル未満に抑えられており、再現性の高さも特徴です。

フランカアームを使った「MolmoAct2-DROID」（7万4604エピソード・言語再注釈付き）と低コストロボット向けの「MolmoAct2-SO100/101」（3万8059エピソード、377ユーザー由来の1222公開データセット）も合わせて公開されています。

さらに、アクションを離散トークン列に変換する「OpenFAST」トークナイザーも新たに提供されます。YAM・SO-100/101・DROID Frankaなど5種の身体を横断した100万アクション系列で訓練された2048語彙のトークナイザーで、1秒間の32次元アクションを圧縮して扱えます。

図3: MolmoAct2の訓練データ構成。公開学術データセット、独自収集3データセット、マルチモーダルウェブデータ、身体推論データを組み合わせた多様な混合データ

MolmoThinkの適応的推論

実環境でのロボット制御では推論速度が直接的な性能に影響します。MolmoAct2-Thinkは「変化した領域だけ再推論する」適応的深度トークン推論でこの課題に応えます。

10×10グリッドで各セルのRGBフレーム間コサイン類似度を閾値0.996で比較し、変化が検出された領域の深度トークンのみ再予測します。静的な領域のトークンはキャッシュから再利用するため、シーンの変化量に比例してレイテンシーが低減される仕組みです。リアルタイム性を重視したマルチモーダルモデルと同様に、低コンピュートでの高頻度制御を狙った設計で、LIBERO長期タスクでは95.4%の成功率を維持しつつ制御レートを大幅に改善しています。

図4: MolmoAct2-Thinkの概要。変化した領域のみ深度コードを再生成し、静的領域はキャッシュを再利用することで推論レイテンシーを削減する

実験結果と性能評価

7つのシミュレーション・実環境ベンチマークで、MolmoAct2はPi-0.5を含む強力なベースラインを上回っています。実機DROID Frankaでの5タスク平均成功率は87.1%で、次点のPi-0.5-DROIDの48.4%を38.7ポイント上回りました。LIBEROベンチマーク全体では97.2%を達成し、Pi-0.5（96.9%）と同等以上の精度を確保しています。

RoboEvalベンチマークでは「箱の梱包」や「バルブ回転」といった長期タスクで特に高い成功率を記録しました。タスク達成率だけでなく、軌跡の滑らかさや関節ジャーク、自己衝突回数といった質的指標でも最良クラスのスコアを示しています。

実環境8タスクでの微調整評価では、ウェットラボでのピペット操作や皿洗い、おもちゃの片付けといった多様な課題に対し、4つの強力なベースラインを平均15ポイント上回る成績を収めました。研究室の管理された環境を超え、日常的な実世界タスクへの汎化性も確認されています。

図5: 実環境8タスクでの微調整評価。MolmoAct2は4つのベースラインを平均15%以上上回る成功率を達成し、研究室外の実世界タスクへの高い汎化性を示した

まとめ

MolmoAct2は、高性能VLMバックボーク・新規アーキテクチャ・大規模オープンデータセットを三位一体で提供する点が際立っています。モデル重み、訓練コード、3種のデータセット、OpenFASTトークナイザーをすべて公開することで、研究コミュニティが安価なロボットを使った独自研究を進められる基盤を整えました。

課題として、720時間規模のデータ収集を前提とした訓練コストや、一般家庭レベルの環境への適応は今後の検証が必要です。それでも、ロボット操作AIにおけるオープンソースの水準を大きく引き上げた研究として、産業応用や学術研究への広い波及効果が期待されます。

MolmoAct2: Action Reasoning Models for Real-world Deployment

Abstract page for arXiv paper 2605.02881: MolmoAct2: Action Reasoning Models for Real-world Deployment

arxiv.org

VLMバックボーンMolmoERが13の身体推論ベンチマークでGPT-5とGemini Robotics ER-1.5を上回り、7つのベンチマークでPi-0.5を凌駕する性能を達成
Flow MatchingとVLMを層ごとのKV接続で統合する新アーキテクチャにより、自然言語指示からの連続ロボット軌跡予測を実現
720時間の双腕操作データセット・訓練コード・OpenFASTトークナイザーを含む全成果を完全オープン公開