ASPIREとは？ロボットが自律的にスキルを発見・蓄積するコード駆動型学習フレームワーク

LLMを活用したコード・アズ・ポリシー手法で自律的に失敗を診断・修復し、再利用可能なスキルライブラリを構築する継続学習フレームワーク
LIBERO-Proマニピュレーションで既存手法比77%の性能向上、未見タスクへのゼロショット転移では31% vs 4%という大幅な差
シミュレーションで習得したスキルを実機ロボットへ転移することも確認済みで、再現性・実用性ともに高い研究

研究の背景と課題

ロボットに複雑な操作タスクを学習させる手法として、強化学習や模倣学習が長年研究されてきました。しかし、これらの手法には共通の弱点があります。人間が丁寧に設計した基本動作（プリミティブ）やデモデータに依存するため、新しい環境や想定外の失敗に柔軟に対応できないのです。

近年は、LLM（Large Language Model、大規模言語モデル）を活用した「コード・アズ・ポリシー」という手法も注目されています。ロボットの制御プログラムをLLMに自動生成させるアプローチですが、生成したコードが実行時に失敗しても、その原因を特定して修正する仕組みが不十分という問題がありました。ロボット操作の学習フレームワークとしてはPhysisForcingのように物理的整合性を活用する手法も提案されていますが、ASPIREはLLMによるコード生成と自律デバッグという独自の経路でこの課題に取り組みます。

NVIDIAの研究チームはこの問題を正面から捉え、ロボットが自律的にスキルを発見・蓄積しながら継続的に成長できるフレームワーク「ASPIRE（Agentic Skills Discovery for Robotics）」を発表しました。

ASPIREの3つのコンポーネント

ASPIREは互いに連携する3つの主要コンポーネントで構成されています。コーディネーターと呼ばれる上位エージェントが複数のタスクを並列管理し、各タスクに割り当てられたコーディングエージェントがこれらのコンポーネントを使って繰り返し改善を続けます。

図1: ASPIREのシステム全体像。コーディネーターがタスクごとにコーディングエージェントを起動して並列に学習を進める。各エージェントはロボット実行エンジンを通じてプログラムを反復的にデバッグ・改善し、検証済みの修復内容が共有スキルライブラリに蓄積される。

第1のコンポーネントはロボット実行エンジンです。ロボットがタスクを実行する際の映像、関節角度、衝突検知といった多様な情報を「マルチモーダルトレース」として収集します。このトレースを分析することで、どの基本動作のどのステップで失敗が起きたかを自動で特定できます。人間が手動でログを調べる必要がなく、失敗の根本原因に素早く到達できます。

図2: ロボット実行エンジンによるトレース誘導デバッグの例。ラジオを見つけるが接近に失敗するケースで、プリミティブトレースが繰り返しのPLANNING_ERRORを特定し、エージェントが多角度アプローチルーティンを追加して把持に成功、「Multi-Angle Approach」スキルとして登録される。

第2のコンポーネントはスキルライブラリです。エンジンが診断した失敗原因と修復プログラムのペアを「スキル」として蓄積します。単なるコードスニペットではなく、「どんな状況で失敗が起きるか」「どう修復するか」という知識がセットで保存されます。後続のタスクで類似の状況に直面したとき、過去のスキルをコンテキストとして参照することで、同じ失敗を繰り返さずに済みます。

図3: スキルライブラリの概要。ローカリゼーション、ナビゲーション、モーションプリミティブ、把持戦略、シーン理解、デバッグワークフローなど多様なカテゴリにわたってスキルが蓄積される。シミュレーションで発見されたスキルは実機ロボットのプログラミングにも活用される。

第3のコンポーネントは進化的探索です。単一のプログラムを改善するだけでなく、複数の候補プログラムを並列に試して成功したものを次世代の出発点にする、生物の進化に近い探索を行います。多様な戦略を試すことで局所最適に陥るリスクを減らし、より堅牢なプログラムを効率よく発見できます。

実験結果と性能改善

ASPIREは3つの主要ベンチマークで評価されました。

図4: LIBERO-Proベンチマークでの成功率比較。10タスク×50の未見環境シードにわたるマクロ平均成功率。ASPIREは既存手法と比べて最大77%の性能向上を示した。

LIBERO-Pro（ロボットアームの操作タスク10種）: 既存手法比で最大77%の性能向上
Robosuite（単腕・双腕の操作タスク）: 双腕ハンドオーバータスクで72%の改善
BEHAVIOR-1K（家庭内の長時間モバイル操作）: タスク成功率が32%改善

さらに注目される結果が、未見タスクへのゼロショット転移です。LIBERO-Proで90個のスキルを蓄積したライブラリを使い、一度も学習していないタスクに挑戦した実験では、ASPIREが31%の成功率を達成したのに対し、ベースライン手法は4%にとどまりました。蓄積されたスキルが新しい状況での問題解決に実際に役立っていることを示しています。

スキルライブラリのサイズと性能の関係も分析されており、ライブラリが大きくなるほどゼロショット成功率が向上する傾向が確認されています。継続的に学習・蓄積していくアプローチの有効性を裏付ける結果です。

シミュレーションから実機への転移

シミュレーションで習得したスキルが実際のロボットにも適用できるかについても検証されています。ASPIREはスキルを特定のロボット構成に依存しない汎用的な知識として保存しているため、シミュレーション環境で発見されたスキルを実機ロボットのプログラミングにおけるコンテキストガイダンスとして活用できることが示されました。

スキルライブラリに含まれるカテゴリは多岐にわたります。曖昧なオブジェクト指示を解決するローカリゼーションスキル、障害物回避のナビゲーション戦略、把持点の選択、シーンの空間関係の推論など、ロボット操作に必要な知識が体系的に蓄積されます。NVIDIAの公式プロジェクトページも公開されており、手法の再現性は高いと考えられます。

まとめと今後の展望

ASPIREは「失敗から学び、知識を蓄積し、新しい状況に転移する」というロボット学習の核心的な課題に、LLMベースのコード生成・自律デバッグ・スキルライブラリという形で実用的な解法を示した研究です。LIBERO-Proで77%の向上、未見タスクで31% vs 4%という結果は、継続的なスキル発見アプローチの可能性を明確に示しています。

現時点では、各スキルの発見に必要な試行回数やLLM呼び出しコストについての詳細な分析が課題として残ります。スキルライブラリが大規模化したときの検索効率や、環境変化に伴う知識の陳腐化への対処も今後の研究テーマとなるでしょう。ロボットが自律的に成長し続けるシステムの実現に向けて、ASPIREは重要な一歩を踏み出しています。