Playful RATsとは？「遊び」でスキルを先習得するロボットエージェント学習の新手法

RATs（Robotics Agent Teams）はタスク指示の前の「遊び」フェーズで自律的にコードスキルライブラリを構築し、後続タスクで再利用するロボット学習フレームワーク
LIBERO（ロボット操作学習の標準ベンチマーク群）のPROサブセットで+20.6ポイント、視覚言語対応の操作ベンチマークMolmoSpacesで+17.0ポイントの精度向上を達成
習得スキルはコードとして保存されるため、ベースモデルを再学習せずに他の環境や別エージェントへ転移でき、実機ロボットへの応用でも有効性を確認

研究の背景

人間の子どもは、特定の課題を与えられる前から積み木で遊び、物の重さを感じ、バランスを学びます。この「遊び」による事前スキル獲得が後のより複雑な課題解決を容易にすることは、教育学でも広く知られています。

一方、従来のロボット学習では「このタスクを実行せよ」という指示を受けてから学習を開始するのが一般的でした。タスクごとにゼロから学び直すため、似た動作パターンを何度も繰り返し習得する非効率さが課題となっていました。

UC Berkeleyらが提案したRATs（Robotics Agent Teams）は、この課題に正面から取り組みます。明示的なタスク指示を受ける前の「遊び」フェーズで、ロボットエージェントが自律的にスキルを積み上げる仕組みを提案しました。

RATsの学習プロセス

RATsの核心は、「遊び時間（play time）」と「評価時間（evaluation time）」の2段階構成にあります。

図1: RATsの全体像。タスク指示の前に「遊び」フェーズでスキルライブラリを構築し、評価時に再利用する

遊び時間には、エージェントチームが次の4つのステップを繰り返します。まず「どんな操作を練習すべきか」という目標を自ら提案し、Code-as-Policy（コードとしての方針）と呼ばれる手法でロボット操作コードを生成・実行します。Code-as-Policyとは、大規模言語モデルがロボット制御のプログラムコードを直接書き出す手法で、自然言語の指示を実行可能なコードに変換します。

実行後は別のエージェントが結果を検証し、失敗した場合は原因を診断してリトライします。成功した動作パターンは「コードスキルライブラリ」に蒸留・保存されます。このライブラリは評価時に取り出して再利用できる点が大きな特徴です。

図2: 遊びフェーズの詳細。目標提案→コード実行→検証→診断→リトライのループでスキルを蓄積していく

重要なのは、スキルライブラリが「ベースモデルを変えずに」機能する点です。スキルはコードとして保存されるため、異なるエージェントや環境でも呼び出して使えます。またHumanScaleのような身体的AI事前学習アプローチと組み合わせることで、さらなる性能向上も期待できます。

実験結果

研究チームは複数のベンチマークでRATsを評価しました。LIBERO（ロボット操作学習の標準ベンチマーク群）のPROサブセットでは、コードを直接生成するベースライン「CaP-Agent0」と比較して+20.6ポイントの精度向上を達成しました。視覚言語対応の操作ベンチマークMolmoSpacesでは+17.0ポイントという大幅な改善幅を示しています。

図3: シミュレーション環境での定性比較。直接コード生成と比べ、RATsは複雑な操作でも安定して成功する

スキル転移の実験結果も注目に値します。LIBEROで遊びながら習得したスキルを、物体操作シミュレータRoboSuiteの別タスクに転移した結果、+8.9ポイントの改善を確認しました。ベースモデルの再学習なしに既存スキルを別環境で活用できることを示しており、実用面での利便性の高さがうかがえます。

さらに、シミュレーション環境から実機ロボットへの転移（シム-to-リアル転移）の実験でも+8.8ポイントの向上が得られ、研究室のシミュレーションにとどまらない実世界での有用性も裏付けられました。

図4: 実機ロボットへのシム-to-リアル転移の定性的な結果。シミュレーションで蓄積したスキルが実環境でも機能している

なぜスキルライブラリが有効なのかは、コード比較からも明らかです。コードを直接生成する場合、知覚処理・座標計算・経路計画などの低水準処理を毎回ゼロから書き直す必要があります。RATsでは検証済みのスキルを呼び出すだけで済むため、脆弱なコードの再生成を大幅に削減できます。

まとめと今後の展望

RATsは「タスク指示を受けてから学ぶ」という従来の枠組みを見直し、遊びによる事前スキル獲得をロボット学習に取り入れた手法です。スキルがコードとして保存されるため解釈しやすく、別エージェントへの転移も容易という実用的な利点があります。

今後の課題としては、遊び時間の長さや提案する目標の質が最終性能に与える影響の精緻化が挙げられます。スキルライブラリが大規模になったときの検索効率や、相互に干渉するスキルの管理も今後の研究テーマになるでしょう。人間の子どもが遊びを通じて世界を理解していくように、ロボットも遊びながら豊かなスキルセットを身につける研究の方向性として、今後の発展が期待されます。