言語・LLM

言語・LLM

長文タスクに優れたエンコーディング「TAPE」で頑健性と効率性を向上

新しい位置エンコーディングフレームワーク「TAPE」を提案。モデルの頑健性と効率性を向上させ、長文タスクにおいて優れた性能を示す実験結果。効率的な処理で強力なパフォーマンスを実現。
言語・LLM

SSMの長期依存タスクの性能向上を実現する新手法

SSMの情報依存と均一化問題を解明し、情報活用のための極性化手法を提案。長期依存性タスクでの性能向上を実証し、効果的な手法を確立。情報処理の効率化に貢献。
言語・LLM

【CodeRM-88】コード生成評価を改善する新手法

新手法CodeRM-88を提案し、コード生成モデルの評価を改善。ユニットテストの自動生成と動的スケーリングにより難解な問題でも高い性能を発揮、既存手法に比べ大幅な精度向上を実現しました。
言語・LLM

【A3】モバイルアプリ上で動作するエージェント評価

モバイルアプリのGUIでのエージェント評価を改善する「A3フレームワーク」を提案。OCRやLLMを用いた評価関数を導入し、AppAgentが複雑なタスクでLLMの限界を超える可能性を示唆。
言語・LLM

生成回答を改善する自己修正手法「ProgCo」の効果やいかに

言語モデルの能力向上手法としてProgCoを提案。プログラムで生成された回答を検証・改善するプロセスを導入し、実験でGPT-3.5やGPT-4の性能を向上。自己修正で言語モデルの有用性を強化。
言語・LLM

自己呼び出し関数の生成能力を測るベンチマークでLLMのコーディング性能向上へ!

自己呼び出し関数生成の新しいベンチマーク「HumanEval Pro」「MBPP Pro」を提案。最新のLLMはこの課題で苦戦中。特に非指示調整型モデルで低精度を示すが、新ベンチマークはエラー削減と評価ツールとして有用。
言語・LLM

【SWE-Gym】ソフトウェア開発のシミュレーション学習環境!

ソフトウェアエンジニアリングタスクをシミュレーションする学習環境「SWE-Gym」を提案。Transformerを使用し高精度のコード修正を実現。オープンソースで公開され、研究者や開発者が利用可能に!
言語・LLM

LLMの考えすぎを抑え効率性20%向上する手法

LLMの考えすぎ問題がモデルの効率と精度に与える影響を分析し、Reasoning Preference Optimizationで緩和。提案手法により数学テストの精度と効率が約10%-20%向上。o1やQwQ-32Bなどを用い、数学的問題や一般知識に基づくテストを実施。
言語・LLM

埋め込み技術で強化されたロシア語LLMの新成果

ロシア語特化大規模言語モデルの改良法「学習型埋め込み伝播」を提案。埋め込み空間の整合性向上で未学習領域でも高性能を実現。複数ロシア語ベンチマークで優れた結果を確認。
言語・LLM

LLM高速化へ新手法Dynasorで効率と精度向上

この論文では、LLMの推論効率を高めるために「Certainties」という概念を導入し、それに基づくリソース配分手法「Dynasor」を提案しています。Dynasorは計算効率と応答精度の両方を向上させることに成功しています。