RAD-2とは？拡散モデルとRLで衝突率56%削減を実現した自動運転プランナー

拡散モデルが多様な軌道候補を生成し、RLで最適化された識別器が長期走行品質に基づいて最良の軌道を選択するGenerator-Discriminator構造を採用
新手法TC-GRPOが時系列一貫性を利用して信用割り当て問題を緩和し、識別器のポリシー最適化を安定化させる
BEV-Warp高速シミュレーション環境でスケーラブルな学習を実現し、強力な拡散プランナー比で衝突率56%削減を達成

研究の背景

自動運転の核心技術のひとつがモーション計画（Motion Planning）です。車両が安全かつ円滑に走行するために、周囲の環境をリアルタイムに認識しながら次の動作軌道を決定する必要があります。都市部の複雑な交差点や歩行者が行き交う路上での判断は、ルールベースのシステムだけでは対応しきれない多様なシナリオを含んでいます。

深層学習ベースのプランナーには大きく2つのアプローチがあります。ひとつは拡散モデル（Diffusion Model）を用いる手法で、確率的なサンプリングにより多様な軌道候補を生成できます。もうひとつは強化学習（RL）ベースの手法で、長期的な走行品質を報酬として直接最適化できます。

しかし両者は単独では限界を抱えています。拡散モデルは候補の多様性に優れますが、すべての候補が長期的な安全性を保証するわけではありません。RLは収束が不安定で学習コストが高く、大規模な実シーンへのスケールが難しい側面があります。RAD-2はこの課題を分離設計によって乗り越えようとした研究です。

RAD-2の全体構造

Huazhong University of Science and Technologyの研究チームが提案したRAD-2は、Generator-Discriminator（生成器・識別器）の二段階構造を軌道計画に適用したフレームワークです。生成器が多様性を担い、識別器が品質評価を担うことで、2つのアプローチの長所を組み合わせます。

生成器には拡散モデルを使用します。現在の走行シーンを条件として確率的なサンプリングを行い、複数の異なる軌道候補を一度に生成します。識別器はRLで訓練された評価モジュールで、生成された候補群の中から長期的な衝突回避性と走行安定性の観点で最も優れた軌道を選び出します。最終的には識別器が選んだ1本の軌道を車両に与えます。

図1: RAD-2のGenerator-Discriminator構造。拡散モデルが複数の軌道候補を生成し、RL識別器が長期品質に基づいて最良を選択する

TC-GRPOによる識別器の安定学習

識別器の訓練において本研究が新たに提案したのが「TC-GRPO（Temporally Consistent Group Relative Policy Optimization）」です。GRPOはもともとグループ内の相対的な報酬比較によってポリシーを更新する手法ですが、軌道計画に適用すると「信用割り当て問題」が生じます。

軌道は時系列データです。数秒先の衝突が現時点のどの操作に起因するかを正確に特定することは難しく、従来のGRPOでは軌道全体に一様な報酬が割り当てられていました。TC-GRPOはこの問題に対して、時系列方向の一貫性（Temporal Consistency）を活用し、各タイムステップへ報酬をより適切に配分する仕組みを導入しました。これにより勾配のノイズが減り、識別器のポリシー最適化が安定します。

同様にRL最適化の安定性向上を目指した研究として、MEDS（Memory-Enhanced Dynamic Reward Shaping）があります。MEDSは過去ロールアウトの記憶を活用して多様性の崩壊を防ぐ手法であり、RLの訓練安定化という共通課題に異なる角度からアプローチしています。

BEV-Warpと生成器の最適化

大量の訓練サンプルを効率よく収集するために、RAD-2は「BEV-Warp」と呼ぶ独自のシミュレーション環境を構築しました。BEV（Bird's-Eye View）の特徴空間上で環境をレンダリングすることで、実際のピクセル画像を逐一生成するよりも高いスループットを実現しています。このスケーラブルな環境があってはじめて、RLベースの識別器を十分な量の経験から訓練できます。

生成器にも改善が施されています。識別器がクローズドループ評価で獲得したフィードバックを縦方向の報酬信号へ変換し、生成器が高報酬な軌道をより多く出力するよう誘導する「On-policy Generator Optimization」を導入しました。識別器の選好に合わせて生成器も更新されることで、システム全体の性能が相互に高まる仕組みです。

図2: BEV-Warp高速シミュレーション環境のパイプライン。BEV特徴空間でのレンダリングがRL学習のスループットを大幅に向上させる

実験結果と実地デプロイ

公開ベンチマークでの評価において、RAD-2は強力な拡散ベースのプランナーと比較して衝突率を56%削減しました。Generator-Discriminator分離設計と、TC-GRPOによる安定した識別器訓練の組み合わせが、この大幅な改善をもたらしています。走行の平滑性指標についても改善が確認されています。

さらに、実際の都市部交通環境での実地デプロイが実施され、安全性と走行快適性の向上が報告されています。ベンチマーク上の数値だけでなく、実道路での有効性を示した点は実用化に向けて重要な結果です。研究チームはGitHubでコードを公開しており、2026年4月時点で205スターを獲得しています。

まとめ

RAD-2は、拡散モデルによる「多様な軌道生成」とRLによる「長期品質の最適化評価」を明確に分離することで、それぞれの弱点を補い合うアーキテクチャを実現しました。TC-GRPOによる信用割り当ての改善とBEV-Warpによるスケーラブルな訓練環境の整備が、この性能を支えています。

自動運転のモーション計画は安全性への要求が非常に高い領域です。生成と評価を分離したGenerator-Discriminator構造は、それぞれのコンポーネントを最も適した手法で訓練できるという柔軟性を持ちます。都市部での実地検証も含めた本研究の成果は、安全な自動運転の実現に向けた着実な進歩を示しています。