AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

© 2026 AI-Papers. All rights reserved.

ホーム
論文解説
強化学習

強化学習

論文解説強化学習

Qwen-AgentWorldとは？LLMを環境シミュレーターに変換するエージェント向け言語世界モデル

Qwenチームが提案する言語世界モデル「Qwen-AgentWorld」。7ドメイン・1,000万件超の実環境軌跡データをCPT→SFT→RLの3段階で学習し、LLM自体が次状態を予測する環境シミュレーターとして機能します。AgentWorldBenchでGPT-4oやGemini 2.5 Proを超える性能を達成。

2026年6月24日

Qwen-AgentWorldとは？LLMを環境シミュレーターに変換するエージェント向け言語世界モデル

論文解説強化学習

Playful RATsとは？「遊び」でスキルを先習得するロボットエージェント学習の新手法

UC Berkeleyが提案するRATs（Robotics Agent Teams）は、タスク前の「遊び」で自律的にスキルを習得するロボット学習手法です。LIBERO-PROで+20.6ポイントの精度向上を実証しました。

2026年6月21日

Playful RATsとは？「遊び」でスキルを先習得するロボットエージェント学習の新手法

論文解説強化学習

ZPPOとは？最近接発達領域の概念でAI知識蒸留を改善する強化学習手法

ヴィゴツキーの教育理論「最近接発達領域（ZPD）」をAI訓練に応用したNVIDIAの手法「ZPPO」を解説します。BCQ・NCQの2つのプロンプト戦略で教師の知識を転移し、Qwen3.5の小規模モデルでVLMベンチマーク最大+9.3ppを達成しています。

2026年6月17日

ZPPOとは？最近接発達領域の概念でAI知識蒸留を改善する強化学習手法

論文解説強化学習

QUESTとは？合成データだけでフロンティア閉鎖型エージェントに並ぶ深層調査AIを訓練する新手法

人手アノテーション不要の合成タスク8,000件だけでGPT-4o相当の深層調査エージェントを訓練するQUESTを解説。統一ルーブリック木による自動報酬生成と強化学習の仕組みを紹介します。

2026年5月26日

QUESTとは？合成データだけでフロンティア閉鎖型エージェントに並ぶ深層調査AIを訓練する新手法

論文解説強化学習

uPRMとは？人手ラベル不要でLLMの推論ステップ誤りを検出するプロセス報酬モデル

人手によるステップラベルを一切使わずにプロセス報酬モデルを構築する新手法「uPRM」を解説。LLMの次トークン確率から誤り推論ステップを検出し、ProcessBenchで最大15%の精度向上とRL訓練の安定化を実現します。

2026年5月24日

uPRMとは？人手ラベル不要でLLMの推論ステップ誤りを検出するプロセス報酬モデル

論文解説強化学習

DelTAとは？トークン単位の報酬配分でLLMの数学推論精度を3点以上改善する新手法

検証可能な報酬からの強化学習（RLVR）で全トークンに報酬を均等配分する問題を解消した新手法DelTAを解説します。数学ベンチマーク7種でQwen3シリーズが平均3点超の改善を達成しています。

2026年5月22日

DelTAとは？トークン単位の報酬配分でLLMの数学推論精度を3点以上改善する新手法

論文解説強化学習

Maestroとは？RL駆動の動的モデル選択で4B軽量AIがGPT-5を超える新手法

4Bの軽量オーケストレータが強化学習で専門モデルを動的に選択する「Maestro」が10ベンチマーク平均70.1%を達成し、GPT-5（69.3%）やGemini-2.5-Proを上回りました。再訓練なしで未学習モデルへも汎化する拡張性が際立ちます。

2026年5月22日

Maestroとは？RL駆動の動的モデル選択で4B軽量AIがGPT-5を超える新手法

論文解説強化学習

RELEXとは？15%の学習ステップでRLVR訓練を完遂するランク1外挿法

RLVR訓練の重みパラメータがほぼランク1の軌跡を描くという発見に基づき、わずか15%の学習ステップを観測するだけでフル訓練と同等以上の性能を引き出すRELEX手法を解説します。

2026年5月21日

RELEXとは？15%の学習ステップでRLVR訓練を完遂するランク1外挿法

論文解説強化学習

SDARとは？自己蒸留とRLの統合でLLMエージェント多ターン訓練を安定化する新手法

LLMエージェントの多ターン訓練における報酬信号の不安定性を解消する新手法「SDAR」を解説します。シグモイドゲートによる選択的自己蒸留とGRPOを統合し、ALFWorldで+9.4%、WebShopで+10.2%の性能改善を実現しました。

2026年5月16日

SDARとは？自己蒸留とRLの統合でLLMエージェント多ターン訓練を安定化する新手法

論文解説強化学習

Skill1とは？スキル選択・実行・蒸留を単一報酬で共進化させるRLエージェント

スキル選択・実行・蒸留の3能力を単一の強化学習ポリシーで共進化させるSkill1フレームワークを解説。報酬信号を低周波と高周波に分解して各段階の信用割り当てに活用し、ALFWorldで97.5%の成功率を達成しています。

2026年5月10日

Skill1とは？スキル選択・実行・蒸留を単一報酬で共進化させるRLエージェント

論文解説強化学習

LoPEとは？Lorem Ipsum擾乱でGRPOのゼロ優位問題を突破する手法

GRPOで全サンプルが失敗した際にLorem Ipsumテキストを前置するだけで探索空間を広げる「LoPE」を解説します。1.7B〜7Bモデルで最大+6.20ポイントの性能向上を達成しました。

2026年5月10日

LoPEとは？Lorem Ipsum擾乱でGRPOのゼロ優位問題を突破する手法

論文解説強化学習

PRISMとは？マルチモーダルRLの分布ドリフトをMoE対抗学習で解消する新手法

マルチモーダルRLのSFT後に生じる分布ドリフトを、知覚・推論の専門家を持つMoEディスクリミネータで修正する新パイプライン「PRISM」を解説します。Qwen3-VLで全ベンチマーク平均+4.4〜+6.0ポイントの改善を達成しました。

2026年5月6日

PRISMとは？マルチモーダルRLの分布ドリフトをMoE対抗学習で解消する新手法

前へ
1
2
3
次へ

カテゴリ

論文解説
ニュース
- 技術
- ビジネス
AI最前線コラム

人気記事

LLMはなぜ日本文化に偏る？欧州研究が明かすAIの隠れた文化バイアス
2026年4月30日
MolmoAct2とは？GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
2026年5月5日
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
2026年5月31日
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
2026年5月17日
Absolicsのガラス基板とは？AIチップ性能を10倍高密度化する次世代パッケージング
2026年3月15日