AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

ホーム
論文解説

論文解説

論文解説データセット

MemLensとは？789問で測るマルチモーダル長期記憶—最先端モデルも30%以下に留まる

NVIDIAが提案したMemLensは789問・5能力・4段階のコンテキスト長でマルチモーダル長期記憶を評価する初の体系的ベンチマークです。最先端モデルも30%以下に留まる視覚記憶の壁を解説します。

2026年5月17日

MemLensとは？789問で測るマルチモーダル長期記憶—最先端モデルも30%以下に留まる

論文解説動画

RefDecoderとは？参照フレーム注入で動画品質を最大+2.1dB向上させる新手法

動画VAEのデコーダに参照フレームを直接注入する「RefDecoder」が提案されました。ファインチューニング不要でWan 2.1やVideoVAE+に即座に適用でき、PSNRを最大+2.1dB向上させる新手法を解説します。

2026年5月16日

RefDecoderとは？参照フレーム注入で動画品質を最大+2.1dB向上させる新手法

論文解説強化学習

SDARとは？自己蒸留とRLの統合でLLMエージェント多ターン訓練を安定化する新手法

LLMエージェントの多ターン訓練における報酬信号の不安定性を解消する新手法「SDAR」を解説します。シグモイドゲートによる選択的自己蒸留とGRPOを統合し、ALFWorldで+9.4%、WebShopで+10.2%の性能改善を実現しました。

2026年5月16日

SDARとは？自己蒸留とRLの統合でLLMエージェント多ターン訓練を安定化する新手法

論文解説言語・LLM

Darwin Familyとは？訓練不要の進化的モデルマージでGPQA Diamond 86.9%を達成

訓練不要の進化的モデルマージフレームワーク「Darwin Family」が、GPQA Diamondで86.9%（1252モデル中6位）を達成。14次元ゲノムとMRI-Trust Fusionで複数LLMを重み空間で交配させ、追加学習なしに推論性能を高める革新的手法を解説します。

2026年5月16日

Darwin Familyとは？訓練不要の進化的モデルマージでGPQA Diamond 86.9%を達成

論文解説動画

Causal Forcing++とは？1〜2ステップ拡散蒸留でリアルタイム動画生成を実現

自己回帰型動画生成モデルに因果一貫性蒸留を導入し、1〜2ステップの超高速フレーム生成を実現するCausal Forcing++を解説。訓練コスト4倍削減と初回レイテンシ50%削減を達成しつつ、VBench品質スコアで従来手法を上回ります。

2026年5月15日

Causal Forcing++とは？1〜2ステップ拡散蒸留でリアルタイム動画生成を実現

論文解説動画

SANA-WMとは？単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル

NVIDIAが公開したオープンソース世界モデルSANA-WMは、2.6Bパラメータで720p・60秒の動画を単一GPU上で生成します。ハイブリッドアテンションと二重分岐カメラ制御により、より大きな競合モデルと同等以上の映像品質とカメラ追従精度を実現しています。

2026年5月15日

SANA-WMとは？単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル

論文解説言語・LLM

SU-01とは？IMO・USAMO金メダルを達成した30B推論モデルの訓練レシピを解説

30Bパラメータ（3B active）のMoEモデル「SU-01」がIMO 2025・USAMO 2026で金メダルラインを達成。逆パープレキシティカリキュラムSFTから二段階RL・テスト時スケーリングへの統一レシピとその成果を解説します。

2026年5月15日

SU-01とは？IMO・USAMO金メダルを達成した30B推論モデルの訓練レシピを解説

論文解説画像

AsymFlowとは？低ランク非対称速度パラメータ化でFID 1.57を達成したフロー生成モデル

Stanford大学発のフロー生成モデル「AsymFlow」が、ノイズ成分を低ランク部分空間に限定する非対称速度パラメータ化によりImageNet 256×256でFID 1.57を達成。FLUX.2 kleinをピクセル空間に変換する初の手法も提案しています。

2026年5月14日

AsymFlowとは？低ランク非対称速度パラメータ化でFID 1.57を達成したフロー生成モデル

論文解説マルチモーダル

TrackCraft3Rとは？動画拡散Transformerを密な3D追跡に転用するGoogle発の新手法

GoogleのTrackCraft3Rは、Wan 2.1-T2Vビデオ拡散Transformerの事前学習知識を密な3D追跡に転用した初の手法です。4ベンチマークでSOTAを達成し、DELTAv2比でメモリ4.6倍削減・1.3倍高速化を実現しました。

2026年5月14日

TrackCraft3Rとは？動画拡散Transformerを密な3D追跡に転用するGoogle発の新手法

論文解説動画

AnyFlowとは？任意ステップ対応の動画拡散蒸留でテスト時スケーリングを実現する新手法

NVIDIAが提案するAnyFlowは、ステップ増加で品質が低下するConsistency Distillationの問題を解消した初の任意ステップ動画蒸留フレームワークです。1.3Bから14Bパラメータのモデルでテスト時スケーリングを実証しました。

2026年5月14日

AnyFlowとは？任意ステップ対応の動画拡散蒸留でテスト時スケーリングを実現する新手法

論文解説言語・LLM

δ-memとは？凍結LLMに8×8連想記憶を付加する軽量オンラインメモリ機構

LLMのバックボーンを凍結したまま8×8の連想記憶行列をDelta則で学習させる新手法「δ-mem」を解説。MemoryAgentBenchで1.31倍、LoCoMoで1.20倍の性能向上を達成しました。

2026年5月13日

論文解説マルチモーダル

SenseNova-U1とは？理解と生成を統合するNEO-unifyアーキテクチャ

商湯科技が発表したSenseNova-U1は、独立した視覚エンコーダとVAEを排除したNEO-unifyアーキテクチャで理解と生成を単一モデルに統合。視覚推論からVLA・世界モデルまで幅広いタスクで高性能を達成します。

2026年5月13日

論文解説

MemLensとは？789問で測るマルチモーダル長期記憶—最先端モデルも30%以下に留まる

RefDecoderとは？参照フレーム注入で動画品質を最大+2.1dB向上させる新手法

SDARとは？自己蒸留とRLの統合でLLMエージェント多ターン訓練を安定化する新手法

Darwin Familyとは？訓練不要の進化的モデルマージでGPQA Diamond 86.9%を達成

Causal Forcing++とは？1〜2ステップ拡散蒸留でリアルタイム動画生成を実現

SANA-WMとは？単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル

SU-01とは？IMO・USAMO金メダルを達成した30B推論モデルの訓練レシピを解説

AsymFlowとは？低ランク非対称速度パラメータ化でFID 1.57を達成したフロー生成モデル

TrackCraft3Rとは？動画拡散Transformerを密な3D追跡に転用するGoogle発の新手法

AnyFlowとは？任意ステップ対応の動画拡散蒸留でテスト時スケーリングを実現する新手法

δ-memとは？凍結LLMに8×8連想記憶を付加する軽量オンラインメモリ機構

SenseNova-U1とは？理解と生成を統合するNEO-unifyアーキテクチャ

人気記事