- PRM(プロセス報酬モデル)とOPD(ヒンドサイト誘導オンポリシー蒸留)が次状態信号からスカラー報酬とトークンレベル教師信号を同時抽出し、タスク固有の報酬設計を不要にする
- 個人エージェント実験でLLM採点のパーソナライゼーションスコアがベースライン0.17から16ステップ後に0.81へ大幅向上。PRM単独(0.25)・OPD単独(0.72)を超える
- 完全非同期アーキテクチャで会話・ターミナル・GUI・SWE・ツール呼び出しの5ドメインを統一的に訓練可能。コードはGitHubで公開済み
研究の背景
強化学習(RL)を用いてLLMベースのエージェントを訓練する際、最大の課題は報酬信号の設計にあります。タスクの最終結果だけを評価する「成果報酬」は、エピソードが終わるまでフィードバックが得られないため学習効率が低下します。かといって人手で各ステップに報酬を付与する方法は、スケールの観点から現実的ではありません。
Mengdi Wang氏らの研究チームが提案するOpenClaw-RLは、この問題に対してシンプルな洞察から出発します。エージェントが行動した後に自然と返ってくる「次状態信号」、すなわちユーザーの返答・ツールの出力・ターミナルのログなどは、どんなタスクでも発生するものです。この信号には行動の良し悪しを判断するのに十分な情報が潜んでおり、特別な報酬設計なしに活用できるという考え方が本研究の核心です。
提案手法
OpenClaw-RLは、次状態信号から2種類の学習信号を並行して抽出します。
第1の信号はPRM(Process Reward Model、プロセス報酬モデル)を通じたスカラー報酬です。PRMは複数の独立した判定を多数決で集計し、各ステップの評価を+1、−1、0のスカラー値に変換します。最終ステップのみを評価する成果報酬とは異なり、長いタスクの途中でも密なフィードバックを提供できる点が特徴です。
第2の信号はHindsight-Guided On-Policy Distillation(OPD、ヒンドサイト誘導オンポリシー蒸留)によるトークンレベルの教師信号です。OPDは次状態から「ヒント」を抽出してプロンプトに付加し、同一モデルの2つの出力(ヒントあり・なし)のトークン確率の差を「トークンレベル優位性」として活用します。事後的に正解情報を得た状態での出力を教師として、現在の方策を改善するという発想です。

実装面では、推論・PRM判定・学習の3コンポーネントが完全非同期で動作します。エージェントがリアルタイムリクエストを処理しながら、PRM判定器が進行中のやり取りを評価し、トレーナーが方策を同時に更新する設計です。同期待機のオーバーヘッドがゼロになるため、高いスループットを維持できます。推論時にPRMを活用するPRISMのように、プロセス報酬モデルをエージェント学習に組み込む研究は近年急速に広がっています。
実験結果
個人エージェント実験の評価指標には、LLMシミュレーターがユーザー好みへの適合度を採点したパーソナライゼーションスコア(0〜1の範囲)を使用しています。データセットにはGSM8K(数学文章題)を用いた会話シナリオを採用しました。比較した4つの手法は、成果報酬のみのベースライン、PRM報酬のみのBinary RL、OPDのみ、そしてBinary RLとOPDを統合した手法です。
結果として、ベースラインのスコア0.17に対して、Binary RL(8ステップ後)が0.25、OPDのみ(16ステップ後)が0.72に達しました。両者を統合した手法は16ステップ後に0.81を記録し、単独手法を大きく上回りました。

汎用エージェント設定でも有効性が確かめられました。ツール呼び出しタスク(DAPO RLデータ・AIME 2024)では成果報酬のみの0.17に対して統合手法が0.30を達成し、GUIタスク(OSWorld-Verified)でも0.31から0.33への改善が示されています。SWEエージェント(SWE-Bench-Verified)でも同様の向上が確認されました。
アブレーション実験では、Binary RLとOPDの補完的な特性が明らかになりました。Binary RLはステップ数が少なくても広いタスク範囲に安定した効果をもたらす一方、OPDは初期段階での改善は緩やかながら後半で急激な向上をもたらします。両者を組み合わせることで各コンポーネントの弱点を補い合い、最大の効果が得られることが示されました。
まとめと今後の展望
OpenClaw-RLは、タスク固有の報酬設計なしに次状態信号から2種類の学習信号を自動抽出する点が核心的な新規性です。会話・ターミナル・GUI・SWE・ツール呼び出しという異なるドメインを一つのフレームワークで扱える統一性は、多様なエージェント開発の基盤として活用できる可能性があります。
一方で、PRM判定器の品質がスカラー報酬の精度を直接左右するという依存関係は残ります。より困難なタスクや長い時間軸のシナリオ、人間とのリアルタイムインタラクションへの適用が今後の検証課題となるでしょう。コードはGitHub(Gen-Verse/OpenClaw-RL)で公開されており、研究コミュニティへのさらなる貢献が期待されます。

