強化学習 LLM性能向上手法「REINFORCE++」がPPOを超える效果! REINFORCE++は、トークンレベルのKL正則化と簡素な方策更新を用いて、LLMの性能を向上させる手法です。PPOに匹敵する一般化性能とコスト効率を実験で示しています。 2025.01.29 強化学習論文解説
マルチモーダル 長い思考指示と知識蒸留で視覚タスク性能を向上したMLLM「Virgo」の提案 視覚推論力を向上させるMLLM「Virgo」が登場!長い思考指示と知識蒸留の2アプローチで性能向上を実証。データの質が結果に及ぼす影響も重要と確認。 2025.01.29 マルチモーダル論文解説
強化学習 ロボット予測操作と計算最適化の新枠組みEnerVerse 新しいフレームワーク「EnerVerse」は、ロボットの未来状態予測と操作指令生成を統合。技術「Chunk Diffusion」と「Free Anchor View」で予測の不連続や空間欠落を解消し、Sparse Memoryで計算資源を節約しつつ高性能を実証。 2025.01.28 強化学習論文解説
動画 動画の細粒度認識のための半教師あり学習手法「SeFAR」 動画データに基づく細粒度動作認識のための新しい半教師あり学習フレームワーク「SeFAR」を提案。ラベル付きとラベルなしデータを活用し、高精度な擬似ラベル生成で性能向上を実現。実験で最先端手法を超え、計算コストやモデルサイズも低減を達成。 2025.01.27 動画論文解説
言語・LLM SSMの長期依存タスクの性能向上を実現する新手法 SSMの情報依存と均一化問題を解明し、情報活用のための極性化手法を提案。長期依存性タスクでの性能向上を実証し、効果的な手法を確立。情報処理の効率化に貢献。 2025.01.27 言語・LLM論文解説
言語・LLM 【CodeRM-88】コード生成評価を改善する新手法 新手法CodeRM-88を提案し、コード生成モデルの評価を改善。ユニットテストの自動生成と動的スケーリングにより難解な問題でも高い性能を発揮、既存手法に比べ大幅な精度向上を実現しました。 2025.01.26 言語・LLM論文解説
言語・LLM 生成回答を改善する自己修正手法「ProgCo」の効果やいかに 言語モデルの能力向上手法としてProgCoを提案。プログラムで生成された回答を検証・改善するプロセスを導入し、実験でGPT-3.5やGPT-4の性能を向上。自己修正で言語モデルの有用性を強化。 2025.01.15 言語・LLM論文解説
言語・LLM 埋め込み技術で強化されたロシア語LLMの新成果 ロシア語特化大規模言語モデルの改良法「学習型埋め込み伝播」を提案。埋め込み空間の整合性向上で未学習領域でも高性能を実現。複数ロシア語ベンチマークで優れた結果を確認。 2025.01.06 言語・LLM論文解説