AI-Papers

AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

言語・LLM の記事一覧 (2ページ目) | AI-Papers

ホーム
論文解説
言語・LLM

言語・LLM

論文解説言語・LLM

MSAとは？スパース注意機構でLLMの文脈長を1億トークンへ線形拡張する手法

スパース注意機構で文脈長を1億トークンまで線形拡張するMSAを解説。同一バックボーンのRAGを4ベンチマーク平均16%上回り、2枚のGPUで実用推論を実現した新手法です。

2026年3月28日

論文解説言語・LLM

AgentFactoryとは？成功タスクをPythonコードで蓄積・再利用するLLMエージェント

成功したタスク解決を実行可能なPythonコードとして蓄積・再利用するLLMエージェントフレームワーク「AgentFactory」の仕組みと実験結果を解説します。

2026年3月20日

AgentFactoryとは？成功タスクをPythonコードで蓄積・再利用するLLMエージェント

論文解説言語・LLM

Neural Thickets：ランダム摂動だけでPPO/GRPOと互角なLLMポスト学習手法

事前学習済みモデルの重みの近傍には、タスク固有の専門家解が高密度に存在するという「Neural Thicket」現象を報告したMIT発の研究。ランダムサンプリングとアンサンブルのみでPPO・GRPOと同等性能を実現します。

2026年3月15日

Neural Thickets：ランダム摂動だけでPPO/GRPOと互角なLLMポスト学習手法

論文解説言語・LLM

FlashPrefillとは？動的スパースアテンションで長文脈LLMプリフィルを最大27.78倍高速化

FlashPrefillは動的スパースアテンションでLLMのプリフィリングを高速化するフレームワークです。256Kトークンで27.78倍、4Kでも1.71倍の高速化を実現し、既存手法の弱点だった短文脈での性能劣化も解消しています。

2026年3月9日

FlashPrefillとは？動的スパースアテンションで長文脈LLMプリフィルを最大27.78倍高速化

論文解説言語・LLM

FlashAttention-4とは？Blackwell GPU向けアルゴリズム・カーネル協調設計で注意機構を高速化する新手法

NVIDIA Blackwell GPUの非対称ハードウェアスケーリングに対応したFlashAttention-4が登場。完全非同期MMA・softmax最適化・CuTe-DSL Python実装により、cuDNN比1.3倍・Triton比2.7倍の高速化を実現した仕組みを解説します。

2026年3月8日

FlashAttention-4とは？Blackwell GPU向けアルゴリズム・カーネル協調設計で注意機構を高速化する新手法

論文解説言語・LLM

PRISMとは？PRM誘導の粒子的洗練でAIME25 90%を達成する推論アルゴリズム

推論候補解を粒子として扱い、PRM（プロセス報酬モデル）のスコアで逐次洗練するアルゴリズム「PRISM」を解説します。gpt-oss-20bでAIME25 90.0%・GPQA Diamond 71.4%を達成し、6倍大きなモデルと同等の性能を計算効率よく実現。

2026年3月5日

PRISMとは？PRM誘導の粒子的洗練でAIME25 90%を達成する推論アルゴリズム

論文解説言語・LLM

拡散言語モデルが並列デコードで失敗する理由を解明：NAP法による根本的解決策

拡散言語モデル（DLM）が並列デコードを謳いながら自己回帰的に収束する根本原因を特定。訓練データの逐次的構造が問題と診断し、独立推論軌跡を使うNAP手法でGSM8Kの256ステップ精度を14.4ポイント改善しました。

2026年3月1日

論文解説言語・LLM

VESPOとは？変分定式化でLLM強化学習のポリシー陳腐化に耐える新手法

LLMの強化学習訓練で問題となるポリシー陳腐化に対処するVESPOを解説します。変分定式化と分散削減を統合した閉形式カーネルにより、gbs/mbs=64という極端な条件でもGRPOを14ポイント上回る安定訓練を実現します。

2026年2月24日

論文解説言語・LLM

BFS-POとは？Best-First Searchで推論モデルのoverthinking問題を解消する新手法

大規模推論モデルの「overthinking」問題を解決するBFS-POを解説。最大エントロピーノードでバックトラッキングし、最短正解パスを探索することでDAPO比1.37倍の高速化と精度向上を同時に達成した強化学習手法を紹介します。

2026年2月17日

BFS-POとは？Best-First Searchで推論モデルのoverthinking問題を解消する新手法

論文解説言語・LLM

WebWorldとは？100万件超のWeb操作で訓練されたAIエージェント用大規模ワールドモデル

Qwenチームが開発した初の大規模オープンWebシミュレータ「WebWorld」を解説。106万件のWeb操作データで訓練され、WebArenaで+9.2%改善しGPT-4o相当の性能を達成した仕組みと成果を紹介します。

2026年2月17日

WebWorldとは？100万件超のWeb操作で訓練されたAIエージェント用大規模ワールドモデル

論文解説言語・LLM

Step 3.5 Flashとは？110億パラメータでGPT-5.2級の性能を達成したオープンモデル

StepFun社のオープンモデル「Step 3.5 Flash」を解説。110億の活動パラメータのみでGPT-5.2やGemini 3.0 Proに匹敵する性能を達成。スパースMoE設計と強化学習の革新に迫ります。

2026年2月13日

Step 3.5 Flashとは？110億パラメータでGPT-5.2級の性能を達成したオープンモデル

言語・LLM論文解説

ユーザー適応型LLM:新手法TPOで再学習不要

ユーザーの好みに合わせてLLMの出力を調整する新手法TPOを提案テスト時にユーザーのフィードバックを活用し、損失関数を用いた出力の最適化 TPOは再トレーニング不要でコスト削減を実現しながら競争力を持つ性能論文：Te […]

2025年3月31日

言語・LLM

MSAとは？スパース注意機構でLLMの文脈長を1億トークンへ線形拡張する手法

AgentFactoryとは？成功タスクをPythonコードで蓄積・再利用するLLMエージェント

Neural Thickets：ランダム摂動だけでPPO/GRPOと互角なLLMポスト学習手法

FlashPrefillとは？動的スパースアテンションで長文脈LLMプリフィルを最大27.78倍高速化

FlashAttention-4とは？Blackwell GPU向けアルゴリズム・カーネル協調設計で注意機構を高速化する新手法

PRISMとは？PRM誘導の粒子的洗練でAIME25 90%を達成する推論アルゴリズム

拡散言語モデルが並列デコードで失敗する理由を解明：NAP法による根本的解決策

VESPOとは？変分定式化でLLM強化学習のポリシー陳腐化に耐える新手法

BFS-POとは？Best-First Searchで推論モデルのoverthinking問題を解消する新手法

WebWorldとは？100万件超のWeb操作で訓練されたAIエージェント用大規模ワールドモデル

Step 3.5 Flashとは？110億パラメータでGPT-5.2級の性能を達成したオープンモデル

ユーザー適応型LLM:新手法TPOで再学習不要

人気記事