AI-Papers

AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

論文解説の記事一覧 (8ページ目) | AI-Papers

ホーム
論文解説

論文解説

論文解説画像

Lensとは？GPT-4.1高密度キャプションで画像生成の学習コストを19%削減する新手法

Microsoftが提案する3.8BパラメータのT2Iモデル「Lens」。GPT-4.1生成の高密度キャプション8億件と計算量換算19.3%という効率的な学習を実現した仕組みを解説します。

2026年5月25日

Lensとは？GPT-4.1高密度キャプションで画像生成の学習コストを19%削減する新手法

論文解説音楽

Live Music Diffusion Modelsとは？30msで動くリアルタイム音楽生成の新手法

ライブ演奏向けのリアルタイム音楽生成フレームワーク「Live Music Diffusion Models」を解説。KVキャッシングとARC-Forcingにより、消費者向けGPUで30ms以下の低遅延生成を実現した手法を紹介します。

2026年5月24日

Live Music Diffusion Modelsとは？30msで動くリアルタイム音楽生成の新手法

論文解説動画

WorldKVとは？カメラ情報でKVキャッシュを選別し動画世界モデルを2倍高速化

KAISTが提案するWorldKVは、カメラ・行動情報に基づくKVキャッシュの取得と類似度ベースの圧縮により、動画世界モデルのスループットを訓練不要で約2倍に高めながらフルキャッシュ保持と同等の映像品質を維持します。

2026年5月24日

WorldKVとは？カメラ情報でKVキャッシュを選別し動画世界モデルを2倍高速化

論文解説強化学習

uPRMとは？人手ラベル不要でLLMの推論ステップ誤りを検出するプロセス報酬モデル

人手によるステップラベルを一切使わずにプロセス報酬モデルを構築する新手法「uPRM」を解説。LLMの次トークン確率から誤り推論ステップを検出し、ProcessBenchで最大15%の精度向上とRL訓練の安定化を実現します。

2026年5月24日

uPRMとは？人手ラベル不要でLLMの推論ステップ誤りを検出するプロセス報酬モデル

論文解説画像

PhysX-Omniとは？剛体・変形体・関節体を統一するシミュレーション対応3D生成フレームワーク

剛体・変形体・関節体を統一的に扱うシミュレーション対応3D生成フレームワーク「PhysX-Omni」を解説。新データセット「PhysXVerse」と評価ベンチマーク「PhysX-Bench」も同時公開。

2026年5月23日

PhysX-Omniとは？剛体・変形体・関節体を統一するシミュレーション対応3D生成フレームワーク

論文解説言語・LLM

RTPurboとは？数百ステップの学習で全注意を疎注意に変換し1Mコンテキスト推論を9倍高速化

全注意LLMに内在する疎性を活用して数百ステップの軽量学習で疎注意モデルへ変換するRTPurboを解説します。100万トークンのプリフィルで最大9.36倍の高速化を達成しながら精度をほぼ維持します。

2026年5月23日

RTPurboとは？数百ステップの学習で全注意を疎注意に変換し1Mコンテキスト推論を9倍高速化

論文解説画像

SEGAとは？学習不要でDiTを高解像度化するスペクトルエネルギー誘導アテンション

Flux・SD3などのDiTモデルが抱える高解像度生成時の構造崩壊を、追加学習なしで解決するSEGAを解説。潜在空間のスペクトルエネルギーでRoPEを動的スケーリングし、4096²超の高品質生成を実現します。

2026年5月23日

SEGAとは？学習不要でDiTを高解像度化するスペクトルエネルギー誘導アテンション

論文解説言語・LLM

Gated DeltaNet-2とは？消去・書き込みゲートを分離してMambaを超える線形注意LLM改良手法

NVIDIAが提案するGated DeltaNet-2は、線形注意の消去ゲートと書き込みゲートをチャネル単位で独立させ、1.3BモデルでMamba-2・KDAを複数ベンチマークで上回る性能を実現しました。

2026年5月22日

Gated DeltaNet-2とは？消去・書き込みゲートを分離してMambaを超える線形注意LLM改良手法

論文解説強化学習

DelTAとは？トークン単位の報酬配分でLLMの数学推論精度を3点以上改善する新手法

検証可能な報酬からの強化学習（RLVR）で全トークンに報酬を均等配分する問題を解消した新手法DelTAを解説します。数学ベンチマーク7種でQwen3シリーズが平均3点超の改善を達成しています。

2026年5月22日

DelTAとは？トークン単位の報酬配分でLLMの数学推論精度を3点以上改善する新手法

論文解説強化学習

Maestroとは？RL駆動の動的モデル選択で4B軽量AIがGPT-5を超える新手法

4Bの軽量オーケストレータが強化学習で専門モデルを動的に選択する「Maestro」が10ベンチマーク平均70.1%を達成し、GPT-5（69.3%）やGemini-2.5-Proを上回りました。再訓練なしで未学習モデルへも汎化する拡張性が際立ちます。

2026年5月22日

Maestroとは？RL駆動の動的モデル選択で4B軽量AIがGPT-5を超える新手法

論文解説強化学習

RELEXとは？15%の学習ステップでRLVR訓練を完遂するランク1外挿法

RLVR訓練の重みパラメータがほぼランク1の軌跡を描くという発見に基づき、わずか15%の学習ステップを観測するだけでフル訓練と同等以上の性能を引き出すRELEX手法を解説します。

2026年5月21日

論文解説言語・LLM

HRM-Textとは？1,500ドルの学習コストで7Bモデルに匹敵するLLM事前学習フレームワーク

階層型再帰モデル（HRM）を採用した新事前学習フレームワーク「HRM-Text」が提案されました。1Bモデルを約1,500ドルで学習し、MMLU 60.7%・GSM8K 84.5%を達成。2〜7Bクラスと同等の性能を最大432倍少ない計算量で実現します。

2026年5月21日

論文解説

Lensとは？GPT-4.1高密度キャプションで画像生成の学習コストを19%削減する新手法

Live Music Diffusion Modelsとは？30msで動くリアルタイム音楽生成の新手法

WorldKVとは？カメラ情報でKVキャッシュを選別し動画世界モデルを2倍高速化

uPRMとは？人手ラベル不要でLLMの推論ステップ誤りを検出するプロセス報酬モデル

PhysX-Omniとは？剛体・変形体・関節体を統一するシミュレーション対応3D生成フレームワーク

RTPurboとは？数百ステップの学習で全注意を疎注意に変換し1Mコンテキスト推論を9倍高速化

SEGAとは？学習不要でDiTを高解像度化するスペクトルエネルギー誘導アテンション

Gated DeltaNet-2とは？消去・書き込みゲートを分離してMambaを超える線形注意LLM改良手法

DelTAとは？トークン単位の報酬配分でLLMの数学推論精度を3点以上改善する新手法

Maestroとは？RL駆動の動的モデル選択で4B軽量AIがGPT-5を超える新手法

RELEXとは？15%の学習ステップでRLVR訓練を完遂するランク1外挿法

HRM-Textとは？1,500ドルの学習コストで7Bモデルに匹敵するLLM事前学習フレームワーク

人気記事