強化学習 | AI-Papers

エージェント協調強化の新技術「SRMT」開発成功

協調を高めるために、エージェント間で記憶を共有する新手法SRMTを開発SRMTはエージェントが共有メモリを用いて高度な意思決定を行い、報酬最大化を学習シミュレーション実験でSRMTは他の手法を上回る成功率と汎用性を確認論文：SRMT: Sh...

2025.03.31

強化学習論文解説

事前学習済みモデルに強化学習を適用したDeepSeek-R1-Zeroが、自律的な思考時間調整を実現。さらに、SFTを補完しつつOpenAI GPT-4-1217を超える性能を示し、省資源な推論の可能性を示唆。

2025.03.31

強化学習論文解説

この論文では、反省と改善が可能な学習フレームワーク「Agent-R」を提案。Monte Carlo Tree Searchで成功と失敗を分析し修正するプロセスを実装し、3つの環境で高性能を発揮、新タスクへの一般化能力も確認。

2025.03.31

強化学習論文解説

科学実験支援フレームワーク「Boxing Gym」を提案。エージェントが実験設計、結果解釈、新たな仮説を学びつつ、言語モデルで科学データの解釈をサポート。エージェントの限界も報告。

2025.02.01

強化学習論文解説

新手法「Graph Generative Pre-trained Transformer（GPT）」が登場！Transformerを使いグラフをシーケンス化し、自己教師付きで事前学習。実験で既存手法を超える性能、強化学習で最適化。科学と工学に革新をもたらす予感！

2025.02.01

強化学習論文解説

新たなフレームワーク「Meta-CoT」で複雑な推論能力を向上！自己強化型学習法とバックトラッキング機能を活用し、モデルの正確性と自己修正能力を強化。特に高難度の数学タスクで優れた性能、「Big MATH」が貢献。

2025.01.30

強化学習論文解説

REINFORCE++は、トークンレベルのKL正則化と簡素な方策更新を用いて、LLMの性能を向上させる手法です。PPOに匹敵する一般化性能とコスト効率を実験で示しています。

2025.01.29

強化学習論文解説

新手法SDPOはエージェントの問題を特定して最適化を図り、各セッションの特定セグメントに注目して精密なフィードバックを提供。他の手法より性能が向上し、社会的AIエージェントのトレーニングに効果的です。

2025.01.29

強化学習論文解説

新しいフレームワーク「EnerVerse」は、ロボットの未来状態予測と操作指令生成を統合。技術「Chunk Diffusion」と「Free Anchor View」で予測の不連続や空間欠落を解消し、Sparse Memoryで計算資源を節約しつつ高性能を実証。

2025.01.28

強化学習論文解説