LLM

言語・LLM

ユーザー適応型LLM:新手法TPOで再学習不要

ユーザーの好みに合わせてLLMの出力を調整する新手法TPOを提案テスト時にユーザーのフィードバックを活用し、損失関数を用いた出力の最適化TPOは再トレーニング不要でコスト削減を実現しながら競争力を持つ性能論文:Test-Time Prefe...
マルチモーダル

【Dispider】動画とLLMを統合してリアルタイム対話を実現するフレームワーク

動画とLLMを統合した新フレームワーク「Dispider」が登場!動画解析と応答生成を非同期で並行処理し、効率的にリアルタイム対話を実現。実験で既存モデルより高い正確さと処理速度を確認。
強化学習

LLM性能向上手法「REINFORCE++」がPPOを超える效果!

REINFORCE++は、トークンレベルのKL正則化と簡素な方策更新を用いて、LLMの性能を向上させる手法です。PPOに匹敵する一般化性能とコスト効率を実験で示しています。
データセット

GPT-4で地理情報推論力を評価するデータセット「MapEval」の提案

新データセット「MapEval」を提案し、地理空間推論能力を評価。リアルな地理情報を基にした新たなLLM評価方法を確立。最新のGPT-4等で性能を検証し、課題を発見する試み。
ニュース

AIによるコード生成の性能向上と課題を探る

データサイエンティストのマックス・ウルフ氏が、AIに「もっといいコードを書いて」と繰り返し要求し、コードの性能を測定。最終的に100倍の高速化を達成も、バグ増加。人間の介入が必要と指摘。
データセット

YouTubeの教育動画データセットで視覚質問の応答性能を向上

この研究では、YouTubeの教育動画を元にしたマルチモーダルデータセットを構築し、音声認識や字幕同期を用いて説明文を生成するパイプラインを開発。提案データセットは視覚質問応答タスクの性能を向上させることに成功。
言語・LLM

自己呼び出し関数の生成能力を測るベンチマークでLLMのコーディング性能向上へ!

自己呼び出し関数生成の新しいベンチマーク「HumanEval Pro」「MBPP Pro」を提案。最新のLLMはこの課題で苦戦中。特に非指示調整型モデルで低精度を示すが、新ベンチマークはエラー削減と評価ツールとして有用。
言語・LLM

LLMの考えすぎを抑え効率性20%向上する手法

LLMの考えすぎ問題がモデルの効率と精度に与える影響を分析し、Reasoning Preference Optimizationで緩和。提案手法により数学テストの精度と効率が約10%-20%向上。o1やQwQ-32Bなどを用い、数学的問題や一般知識に基づくテストを実施。
言語・LLM

埋め込み技術で強化されたロシア語LLMの新成果

ロシア語特化大規模言語モデルの改良法「学習型埋め込み伝播」を提案。埋め込み空間の整合性向上で未学習領域でも高性能を実現。複数ロシア語ベンチマークで優れた結果を確認。
言語・LLM

LLM高速化へ新手法Dynasorで効率と精度向上

この論文では、LLMの推論効率を高めるために「Certainties」という概念を導入し、それに基づくリソース配分手法「Dynasor」を提案しています。Dynasorは計算効率と応答精度の両方を向上させることに成功しています。