Qwen-VLAとは？操作・ナビゲーション・軌跡予測を統合したクロス体型ロボットAI

DiTベースのアクションデコーダと体型認識プロンプトにより、物体操作・ナビゲーション・軌跡予測を単一モデルに統合した
LIBERO物体操作ベンチマークで97.9%の成功率、実世界ALOHAロボットでOOD成功率76.9%を達成
ロボット固有のテキスト記述を条件に与えることで、異なるロボット体型間のゼロショット汎化を実現

研究の背景

ロボットに「見て、考えて、動く」能力を与えるVLA（Vision-Language-Action、視覚・言語・行動の統合）モデルの研究は近年急速に進んでいます。しかし多くの既存モデルは、特定のロボット機体や特定のタスクに特化して設計されており、別の機体に転用するには追加の学習が必要でした。

たとえば工場の組み立てロボット向けに学習させたモデルを、家庭用の移動ロボットに使い回すことは、従来の手法では難しい課題でした。関節の数や動作範囲、搭載センサが機体ごとに異なるため、ロボット固有のインターフェースに依存するモデルはそのまま流用できなかったのです。

この問題に取り組むため、Qwenチームはクロス体型汎化（cross-embodiment generalization）を核心に据えた統一VLAモデル「Qwen-VLA」を提案しました。物体操作、屋内ナビゲーション、軌跡予測という性質の異なるタスク群を単一モデルで扱い、多様なロボット体型に対してゼロショットで対応できる設計を追求しています。

Qwen-VLAの全体設計

Qwen-VLAは、Qwenが開発してきた視覚言語モデル（VLM）の基盤を継承し、そこに行動生成の能力を加えた構成です。大きく分けると、視覚・言語の理解を担うVLMバックボーンと、連続的な行動を生成するDiT（Diffusion Transformer）ベースのアクションデコーダの2つから成ります。

入力として、ロボットに搭載されたカメラ映像と自然言語のタスク指示を受け取ります。さらに「体型認識プロンプト」と呼ばれる、ロボット固有の構造や制御方式を説明するテキストを追加で与えることで、モデルはその機体に最適な行動を生成できます。

図1: Qwen-VLAのアーキテクチャ概要。VLMバックボーンとDiTベースのアクションデコーダを組み合わせ、体型認識プロンプトにより多様な機体に対応する

提案手法の核心

行動生成にDiT（Diffusion Transformer）を採用した点が、Qwen-VLAの技術的な特徴のひとつです。DiTはもともと画像生成分野で普及した拡散モデルをTransformerで実装したアーキテクチャですが、連続値の系列（ロボットの関節角度など）を生成する際にも高い品質を発揮します。従来の回帰型アクション予測と比べ、複雑な動作の分布を柔軟に表現できる利点があります。

体型認識プロンプトは、「このロボットは6自由度のアーム1本と2本指のグリッパーを持ち、エンドエフェクタ座標系で制御する」といったテキスト情報です。このプロンプトをVLMに入力することで、モデルは機体の構造と制約を言語として理解し、それに応じた行動計画を立てられます。異なるロボット間でのゼロショット汎化を実現する鍵は、この自然言語による機体記述にあります。

事前学習には、ロボット操作軌跡データ・人間の一人称視点動画・シミュレーション生成データ・視覚言語ナビゲーションデータなど多様なソースが活用されました。単一のデータ形式に偏らず幅広いデータを取り込むことで、操作・ナビゲーション・軌跡予測という異質なタスクを統一的に扱う汎用性を獲得しています。なお、深度マップを活用してVLMの空間認識を強化する研究など、VLAの精度向上に向けた周辺研究も同時期に活発化しています。

実験結果

Qwen-VLAは複数のベンチマークと実世界ロボット実験で評価されました。物体操作タスクでは、LIBEROベンチマークで97.9%の成功率を達成し、同ベンチマークにおける最高水準に位置する結果を示しました。また、Simpler-WidowXでは73.7%、RoboTwinのEasyタスク86.1%・Hardタスク87.2%と、いずれも高い成功率を記録しています。

屋内ナビゲーションのR2Rベンチマーク（OSR指標）では69.0%、RxR（SR指標）では59.6%を達成しました。言語指示に従って実環境を移動するタスクであり、操作系とは異なる空間推論能力が求められますが、単一モデルで両方に対応できることを示しています。

実世界の評価では、ALOHAロボットを用いたOOD（学習時に見ていない新タスク）設定での平均成功率が76.9%に達しました。また、DOMINOベンチマークによる動的物体操作のゼロショット成功率は26.6%で、ゼロショット設定としての汎化性能を確認できます。

図2: 主要ベンチマークにおけるQwen-VLAの成功率。物体操作から実世界OOD評価まで、幅広いタスクで高い性能を示した

限界と今後の展望

DOMINOベンチマークのゼロショット成功率が26.6%にとどまっていることは、動的に変化する環境への対応がまだ発展途上であることを示しています。静的な物体を扱うタスクと比べ、動く物体を追いながら操作する場面では、VLAモデル全般において難易度が上がることが改めて確認されました。

クロス体型汎化は自然言語による体型記述に大きく依存しており、記述の精度や粒度が実際の性能に影響する可能性もあります。記述方法の標準化や、より細かい物理パラメータの表現が今後の課題となるでしょう。

Qwen-VLAの設計思想は、特定の機体に縛られない「汎用ロボットAI基盤」という方向性を具体的な形で示しました。操作・移動・軌跡予測を統合し、言語でロボットを説明するというアプローチは、多様なロボットが混在する実環境への展開に向けた有力な一歩です。

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

Abstract page for arXiv paper 2605.30280: Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

arxiv.org

Qwen-VLAとは？操作・ナビゲーション・軌跡予測を統合したクロス体型ロボットAI

研究の背景

Qwen-VLAの全体設計

提案手法の核心

実験結果

限界と今後の展望

関連記事

SenseNova-Visionとは？物体検出からカメラ姿勢推定まで単一モデルで解く統一生成AI

Audexとは？テキスト性能を保ちながら音声認識・TTS・音声生成を統合したNVIDIAのマルチモーダルLLM

TAPとは？ラベルなし動作データでVLAを事前学習し性能10%改善するICML 2026手法

人気記事