人手アノテーション不要の合成タスク8,000件だけでGPT-4o相当の深層調査エージェントを訓練するQUESTを解説。統一ルーブリック木による自動報酬生成と強化学習の仕組みを紹介します。
人手によるステップラベルを一切使わずにプロセス報酬モデルを構築する新手法「uPRM」を解説。LLMの次トークン確率から誤り推論ステップを検出し、ProcessBenchで最大15%の精度向上とRL訓練の安定化を実現します。
検証可能な報酬からの強化学習(RLVR)で全トークンに報酬を均等配分する問題を解消した新手法DelTAを解説します。数学ベンチマーク7種でQwen3シリーズが平均3点超の改善を達成しています。
4Bの軽量オーケストレータが強化学習で専門モデルを動的に選択する「Maestro」が10ベンチマーク平均70.1%を達成し、GPT-5(69.3%)やGemini-2.5-Proを上回りました。再訓練なしで未学習モデルへも汎化する拡張性が際立ちます。
RLVR訓練の重みパラメータがほぼランク1の軌跡を描くという発見に基づき、わずか15%の学習ステップを観測するだけでフル訓練と同等以上の性能を引き出すRELEX手法を解説します。
LLMエージェントの多ターン訓練における報酬信号の不安定性を解消する新手法「SDAR」を解説します。シグモイドゲートによる選択的自己蒸留とGRPOを統合し、ALFWorldで+9.4%、WebShopで+10.2%の性能改善を実現しました。
スキル選択・実行・蒸留の3能力を単一の強化学習ポリシーで共進化させるSkill1フレームワークを解説。報酬信号を低周波と高周波に分解して各段階の信用割り当てに活用し、ALFWorldで97.5%の成功率を達成しています。
GRPOで全サンプルが失敗した際にLorem Ipsumテキストを前置するだけで探索空間を広げる「LoPE」を解説します。1.7B〜7Bモデルで最大+6.20ポイントの性能向上を達成しました。
マルチモーダルRLのSFT後に生じる分布ドリフトを、知覚・推論の専門家を持つMoEディスクリミネータで修正する新パイプライン「PRISM」を解説します。Qwen3-VLで全ベンチマーク平均+4.4〜+6.0ポイントの改善を達成しました。
自動運転の軌道計画に拡散モデルと強化学習を組み合わせた「RAD-2」フレームワークを解説します。Generator-Discriminator構造とTC-GRPOにより、従来比で衝突率56%削減を達成しました。
LLMの強化学習訓練でポリシーが同じ誤りを繰り返す「サンプリング多様性崩壊」を解消するMEDSを紹介します。過去ロールアウトの中間表現を密度ベースクラスタリングで分析し動的ペナルティを付与することで、pass@1を最大4.13ポイント向上させた新手法です。
Stanford・UW・Microsoftの研究チームが提案したRAGEN-2は、エントロピーでは検出できない「テンプレート崩壊」という新失敗モードを相互情報量で診断し、SNR-Awareフィルタリングで修正します。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
SANA-WMとは?単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰