NVIDIAが提案したMemLensは789問・5能力・4段階のコンテキスト長でマルチモーダル長期記憶を評価する初の体系的ベンチマークです。最先端モデルも30%以下に留まる視覚記憶の壁を解説します。
動画VAEのデコーダに参照フレームを直接注入する「RefDecoder」が提案されました。ファインチューニング不要でWan 2.1やVideoVAE+に即座に適用でき、PSNRを最大+2.1dB向上させる新手法を解説します。
LLMエージェントの多ターン訓練における報酬信号の不安定性を解消する新手法「SDAR」を解説します。シグモイドゲートによる選択的自己蒸留とGRPOを統合し、ALFWorldで+9.4%、WebShopで+10.2%の性能改善を実現しました。
訓練不要の進化的モデルマージフレームワーク「Darwin Family」が、GPQA Diamondで86.9%(1252モデル中6位)を達成。14次元ゲノムとMRI-Trust Fusionで複数LLMを重み空間で交配させ、追加学習なしに推論性能を高める革新的手法を解説します。
自己回帰型動画生成モデルに因果一貫性蒸留を導入し、1〜2ステップの超高速フレーム生成を実現するCausal Forcing++を解説。訓練コスト4倍削減と初回レイテンシ50%削減を達成しつつ、VBench品質スコアで従来手法を上回ります。
NVIDIAが公開したオープンソース世界モデルSANA-WMは、2.6Bパラメータで720p・60秒の動画を単一GPU上で生成します。ハイブリッドアテンションと二重分岐カメラ制御により、より大きな競合モデルと同等以上の映像品質とカメラ追従精度を実現しています。
30Bパラメータ(3B active)のMoEモデル「SU-01」がIMO 2025・USAMO 2026で金メダルラインを達成。逆パープレキシティカリキュラムSFTから二段階RL・テスト時スケーリングへの統一レシピとその成果を解説します。
Stanford大学発のフロー生成モデル「AsymFlow」が、ノイズ成分を低ランク部分空間に限定する非対称速度パラメータ化によりImageNet 256×256でFID 1.57を達成。FLUX.2 kleinをピクセル空間に変換する初の手法も提案しています。
GoogleのTrackCraft3Rは、Wan 2.1-T2Vビデオ拡散Transformerの事前学習知識を密な3D追跡に転用した初の手法です。4ベンチマークでSOTAを達成し、DELTAv2比でメモリ4.6倍削減・1.3倍高速化を実現しました。
NVIDIAが提案するAnyFlowは、ステップ増加で品質が低下するConsistency Distillationの問題を解消した初の任意ステップ動画蒸留フレームワークです。1.3Bから14Bパラメータのモデルでテスト時スケーリングを実証しました。
LLMのバックボーンを凍結したまま8×8の連想記憶行列をDelta則で学習させる新手法「δ-mem」を解説。MemoryAgentBenchで1.31倍、LoCoMoで1.20倍の性能向上を達成しました。
商湯科技が発表したSenseNova-U1は、独立した視覚エンコーダとVAEを排除したNEO-unifyアーキテクチャで理解と生成を単一モデルに統合。視覚推論からVLA・世界モデルまで幅広いタスクで高性能を達成します。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング