言語・LLM 多言語埋め込みを強化するLUSIFER!低リソース言語にも強い適応性 新手LUSIFERを提案し、多言語埋め込みを強化。ファインチューニングとアライメントで効果的な多言語学習を実現し、低リソース言語にも高い適応性とコスト効率を発揮。 2025.02.01 言語・LLM論文解説
言語・LLM 【rStar-Math】小型LLMの数学力を向上!モンテカルロ木探索を使って最適解を選択 小型LLMの数学的思考を向上させる新フレームワーク「rStar-Math」を提案。モンテカルロ木探索と自己進化型深層思考を組み合わせることで、計算コストを抑えつつ高い性能を実現した実験結果が報告されました。 2025.01.30 言語・LLM論文解説
言語・LLM 長文タスクに優れたエンコーディング「TAPE」で頑健性と効率性を向上 新しい位置エンコーディングフレームワーク「TAPE」を提案。モデルの頑健性と効率性を向上させ、長文タスクにおいて優れた性能を示す実験結果。効率的な処理で強力なパフォーマンスを実現。 2025.01.27 言語・LLM論文解説
言語・LLM SSMの長期依存タスクの性能向上を実現する新手法 SSMの情報依存と均一化問題を解明し、情報活用のための極性化手法を提案。長期依存性タスクでの性能向上を実証し、効果的な手法を確立。情報処理の効率化に貢献。 2025.01.27 言語・LLM論文解説
言語・LLM 【CodeRM-88】コード生成評価を改善する新手法 新手法CodeRM-88を提案し、コード生成モデルの評価を改善。ユニットテストの自動生成と動的スケーリングにより難解な問題でも高い性能を発揮、既存手法に比べ大幅な精度向上を実現しました。 2025.01.26 言語・LLM論文解説
言語・LLM 【A3】モバイルアプリ上で動作するエージェント評価 モバイルアプリのGUIでのエージェント評価を改善する「A3フレームワーク」を提案。OCRやLLMを用いた評価関数を導入し、AppAgentが複雑なタスクでLLMの限界を超える可能性を示唆。 2025.01.25 言語・LLM論文解説
言語・LLM 生成回答を改善する自己修正手法「ProgCo」の効果やいかに 言語モデルの能力向上手法としてProgCoを提案。プログラムで生成された回答を検証・改善するプロセスを導入し、実験でGPT-3.5やGPT-4の性能を向上。自己修正で言語モデルの有用性を強化。 2025.01.15 言語・LLM論文解説
言語・LLM 自己呼び出し関数の生成能力を測るベンチマークでLLMのコーディング性能向上へ! 自己呼び出し関数生成の新しいベンチマーク「HumanEval Pro」「MBPP Pro」を提案。最新のLLMはこの課題で苦戦中。特に非指示調整型モデルで低精度を示すが、新ベンチマークはエラー削減と評価ツールとして有用。 2025.01.07 言語・LLM論文解説
言語・LLM 【SWE-Gym】ソフトウェア開発のシミュレーション学習環境! ソフトウェアエンジニアリングタスクをシミュレーションする学習環境「SWE-Gym」を提案。Transformerを使用し高精度のコード修正を実現。オープンソースで公開され、研究者や開発者が利用可能に! 2025.01.06 言語・LLM論文解説
言語・LLM LLMの考えすぎを抑え効率性20%向上する手法 LLMの考えすぎ問題がモデルの効率と精度に与える影響を分析し、Reasoning Preference Optimizationで緩和。提案手法により数学テストの精度と効率が約10%-20%向上。o1やQwQ-32Bなどを用い、数学的問題や一般知識に基づくテストを実施。 2025.01.06 言語・LLM論文解説