TAPとは？ラベルなし動作データでVLAを事前学習し性能10%改善するICML 2026手法

失敗軌跡を含む未ラベルデータで逆ダイナミクス学習を行い、少量の専門家デモのみで言語接地する2段階フレームワーク「TAP」をICML 2026で発表
SIMPLERベンチマークで標準的な行動模倣学習比+10%の成功率向上を達成し、100万件超の専門家軌跡と同等の性能を少量データで実現
実機カメラ角度変化でベースラインが成功率0%に崩壊する状況でも、TAPは25%の成功率を維持して環境変化への高い頑健性を実証

研究の背景

VLA（Vision-Language-Action）モデルは、カメラ映像と自然言語の指示を受け取り、ロボットアームなどの具体的な動作として出力するモデルです。近年のロボット研究で急速に注目を集めていますが、実用化に向けて大きな壁があります。学習に必要な「専門家デモンストレーション」、つまり人間が正しい操作手順を実演したデータの収集コストが非常に高い点です。

失敗した動作軌跡や、ロボットが自由に動き回る「自由遊び」のデータは、タスクのラベルが付けられないため従来の学習には使えませんでした。この課題に対し、Junhao Shi、Xipeng Qiu ら復旦大学のチームは、ICML 2026 に採択された論文で「TAP（Task-Agnostic Pretraining）」というフレームワークを提案しました。

TAPの核心アイデア

TAPの着想は「運動スキルの習得」と「言語理解の習得」は本来別々に学べるはずだという仮説にあります。人間の赤ちゃんが言葉を覚える前に体の動かし方を習得するように、ロボットも「何をすべきか」を理解する前に「どう動くか」を先に身につけられます。

この考え方に基づき、TAPは学習を 2 段階に分けます。第 1 段階ではタスクのラベルが一切ない動作データを使って逆ダイナミクス（Inverse Dynamics）という自己教師あり学習を実施します。逆ダイナミクスとは、2 つの連続するカメラフレームを見て「この間にロボットがどんな動作をしたか」を予測する学習手法です。この予測課題を通じて、モデルは物体の把持や接触といった「動き方の物理的知識」を自然に習得します。

図1: TAPフレームワークの全体像。ラベルなしデータによる第1段階の逆ダイナミクス事前学習と、少量の専門家デモによる第2段階の言語接地から構成される

2段階フレームワーク

第 1 段階で扱うデータには、Bridgeデータセットなどのロボットデータやロボットが自律的に探索した際の記録が含まれます。成功した操作だけでなく失敗軌跡も使える点が重要です。タスクラベルを必要としないため、「何をしようとして失敗したか」が不明でも学習に活用できます。

第 2 段階では、第 1 段階で習得した「動き方の知識」を基盤に、少量の言語付き専門家デモで言語接地（Language Grounding）を行います。言語接地とは、「にんじんをお皿に置いて」といった自然言語の指示と具体的な動作を結び付ける学習です。ここで必要な専門家データの量を大幅に削減できる点が、TAPの核心的な価値です。

シミュレーション評価

シミュレーション評価では、Googleが開発したSIMPLERベンチマークを使用しました。SIMPLERは実世界のロボット操作タスクをリアルな視覚環境でシミュレーションし、把持・配置などの操作能力を定量評価するベンチマークで、VLA研究の標準的な評価指標として広く採用されています。

TAPは標準的な行動模倣学習（Behavioral Cloning）と比較して絶対的な成功率が 10% 向上しました。さらに 100 万件以上の専門家軌跡で学習した手法と同等の性能を、はるかに少ない専門家データで達成しています。

図2: 第2段階の学習中における成功率の推移。ベースライン（破線）が早期に収束上限に達する一方、TAPによる事前学習済みモデル（実線）は最終的により高い性能に到達する

データスケーリング分析では、第 2 段階（言語接地）のデータ量を増やすより第 1 段階（タスク非依存事前学習）のデータ量を増やす方が性能向上に大きく寄与することが明らかになりました。事前学習のスケールが性能の上限を決定するという、TAPの設計思想を裏付ける重要な知見です。

図3: データスケーリング分析のヒートマップ。縦軸（第1段階のデータ量）の勾配が横軸（第2段階のデータ量）の勾配より急峻で、事前学習の規模が性能の上限を決める

実機ロボットの検証

実機実験ではWidowX 250ロボットアームを使い、「にんじんをお皿に置く」「かぼちゃを押す」の 2 タスクを評価しました。実環境でのロボット研究では分布変化（Distribution Shift）、つまり学習時と評価時の環境条件のずれが大きな課題です。

カメラ角度の変化、背景テクスチャの変更、見たことのない物体の追加などの条件で評価したところ、標準的なベースラインはカメラ角度変化だけで成功率が 0% に崩壊しました。一方 TAP は 25% の成功率を維持し、事前学習で身につけた物理的な知識が実環境の変化にも頑健であることを示しています。

図4: 実機評価の設定。視覚的な妨害物、背景テクスチャの変化、カメラ角度の変化という3種類の環境擾乱でモデルの頑健性を検証した

図5: シミュレーションと実機でのTAPと比較手法の動作比較。背景変化時に他手法が物体の位置を誤認識する中、TAPは正確に物体を捉えてタスクを完遂している

アテンションマップの分析

アテンションマップの分析からも、TAPの学習が意味ある表現を獲得していることが確認されています。タスク非依存事前学習だけを施したモデルは、言語指示がない状態でもグリッパーや操作対象の物体に自然と注意が集まりました。言語接地後はグリッパー周辺への注意がさらに強化され、シミュレーションと実機の両環境で一貫したパターンが観察されました。

これは事前学習で獲得した物理的な知識が新しい環境にも転移していることを示しています。ロボットの自律スキル学習を別のアプローチで実現する取り組みとして、ASPIREとは？ロボットが自律的にスキルを発見・蓄積するコード駆動型学習フレームワークも参考になります。