強化学習

強化学習

エージェント支援の科学実験フレームワーク「Boxing Gym」

科学実験支援フレームワーク「Boxing Gym」を提案。エージェントが実験設計、結果解釈、新たな仮説を学びつつ、言語モデルで科学データの解釈をサポート。エージェントの限界も報告。
強化学習

グラフGPTで分子構造の生成や物性予測などの科学技術の問題解決へ

新手法「Graph Generative Pre-trained Transformer(GPT)」が登場!Transformerを使いグラフをシーケンス化し、自己教師付きで事前学習。実験で既存手法を超える性能、強化学習で最適化。科学と工学に革新をもたらす予感!
強化学習

【Meta-CoT】高難度な数学タスクに優れたフレームワークでLLMの推論能力を向上

新たなフレームワーク「Meta-CoT」で複雑な推論能力を向上!自己強化型学習法とバックトラッキング機能を活用し、モデルの正確性と自己修正能力を強化。特に高難度の数学タスクで優れた性能、「Big MATH」が貢献。
強化学習

LLM性能向上手法「REINFORCE++」がPPOを超える效果!

REINFORCE++は、トークンレベルのKL正則化と簡素な方策更新を用いて、LLMの性能を向上させる手法です。PPOに匹敵する一般化性能とコスト効率を実験で示しています。
強化学習

社会的AIエージェント問題解決の手法「SDPO」でマルチターン会話の性能向上

新手法SDPOはエージェントの問題を特定して最適化を図り、各セッションの特定セグメントに注目して精密なフィードバックを提供。他の手法より性能が向上し、社会的AIエージェントのトレーニングに効果的です。
強化学習

ロボット予測操作と計算最適化の新枠組みEnerVerse

新しいフレームワーク「EnerVerse」は、ロボットの未来状態予測と操作指令生成を統合。技術「Chunk Diffusion」と「Free Anchor View」で予測の不連続や空間欠落を解消し、Sparse Memoryで計算資源を節約しつつ高性能を実証。