強化学習

強化学習

エージェント協調強化の新技術「SRMT」開発成功

協調を高めるために、エージェント間で記憶を共有する新手法SRMTを開発SRMTはエージェントが共有メモリを用いて高度な意思決定を行い、報酬最大化を学習シミュレーション実験でSRMTは他の手法を上回る成功率と汎用性を確認論文:SRMT: Sh...
強化学習

強化学習で新次元に達したDeepSeek-R1の性能がGPT-4超え

事前学習済みモデルに強化学習を適用したDeepSeek-R1-Zeroが、自律的な思考時間調整を実現。さらに、SFTを補完しつつOpenAI GPT-4-1217を超える性能を示し、省資源な推論の可能性を示唆。
強化学習

行動改善が可能な新学習フレームワークAgent-Rの提案

この論文では、反省と改善が可能な学習フレームワーク「Agent-R」を提案。Monte Carlo Tree Searchで成功と失敗を分析し修正するプロセスを実装し、3つの環境で高性能を発揮、新タスクへの一般化能力も確認。
強化学習

エージェント支援の科学実験フレームワーク「Boxing Gym」

科学実験支援フレームワーク「Boxing Gym」を提案。エージェントが実験設計、結果解釈、新たな仮説を学びつつ、言語モデルで科学データの解釈をサポート。エージェントの限界も報告。
強化学習

グラフGPTで分子構造の生成や物性予測などの科学技術の問題解決へ

新手法「Graph Generative Pre-trained Transformer(GPT)」が登場!Transformerを使いグラフをシーケンス化し、自己教師付きで事前学習。実験で既存手法を超える性能、強化学習で最適化。科学と工学に革新をもたらす予感!
強化学習

【Meta-CoT】高難度な数学タスクに優れたフレームワークでLLMの推論能力を向上

新たなフレームワーク「Meta-CoT」で複雑な推論能力を向上!自己強化型学習法とバックトラッキング機能を活用し、モデルの正確性と自己修正能力を強化。特に高難度の数学タスクで優れた性能、「Big MATH」が貢献。
強化学習

LLM性能向上手法「REINFORCE++」がPPOを超える效果!

REINFORCE++は、トークンレベルのKL正則化と簡素な方策更新を用いて、LLMの性能を向上させる手法です。PPOに匹敵する一般化性能とコスト効率を実験で示しています。
強化学習

社会的AIエージェント問題解決の手法「SDPO」でマルチターン会話の性能向上

新手法SDPOはエージェントの問題を特定して最適化を図り、各セッションの特定セグメントに注目して精密なフィードバックを提供。他の手法より性能が向上し、社会的AIエージェントのトレーニングに効果的です。
強化学習

ロボット予測操作と計算最適化の新枠組みEnerVerse

新しいフレームワーク「EnerVerse」は、ロボットの未来状態予測と操作指令生成を統合。技術「Chunk Diffusion」と「Free Anchor View」で予測の不連続や空間欠落を解消し、Sparse Memoryで計算資源を節約しつつ高性能を実証。