自己回帰型拡散モデルで生じる長尺動画の品質ドリフトを、追加学習なしで抑える「TetherCache」を解説します。GRABとTAMEの2機構により、240秒生成での品質ドリフトスコアを7.84から1.33に大幅削減しました。
MoVerse は1枚の写真から360°パノラマ生成・3D空間再構成を経て、RTX 4090で8 FPSのリアルタイム動画を出力する新手法です。VR/ARやゲーム、ロボティクスへの応用が期待されます。
単一のDiTモデルで画像と深度マップを同時生成する「Modality Forcing」を解説。疎な実世界深度データで学習し、従来手法比AbsRelエラーを57%削減した仕組みと成果を紹介します。
既存の画像生成モデル(FLUX等)を改変せずに活用し、テキストと画像を交互生成する能力を付与するマルチエージェントフレームワーク「InterleaveThinker」を解説。WISEスコアが0.47から0.73へ大幅に改善しました。
MiniMaxが開発した数学証明AI「MaxProof」の仕組みを解説。証明生成・検証・修復を統合したM3モデルが、IMO 2025で35/42問、USAMO 2026で36/42問を解き、いずれも金メダル基準を超えました。
MiniMax社のスパースAttention手法「MSA」を解説。1Mトークン時の注意計算量を28.4倍削減し、H800 GPUでプリフィル14.2倍・デコード7.6倍を達成しながら標準GQAと同等の精度を維持します。
NVIDIAが提案する「SpatialClaw」は、PythonカーネルをAIの行動インターフェースに採用した空間推論エージェントです。20のベンチマークで従来手法を+11.2ポイント上回り、6種のVLMに追加学習なしで適用できます。
中国人民大学NLPIR Labが提案するArborは、仮説・実験・知見を1本のツリーで累積管理する自律研究フレームワークです。6タスク全てでClaude Code比2.5倍以上の改善を実現し、MLE-Bench Liteでは86.36%を達成しました。
MoEモデルのルーター設計に数学的根拠を与えるManifold Power Iteration(MPI)を解説。エキスパート行列の主特異方向への整合で損失を改善し、下流タスク性能も向上させる新手法を紹介します。
スタンフォード大が300以上の実験で体系化したテキスト→画像拡散モデルの設計レシピ。公開データのみで訓練した3Bパラメータモデルが5ベンチマーク平均で既存オープンモデルを29.5pt上回る性能を達成しました。
Kuaishouが開発した30B MoE型マルチモーダルモデル「Keye-VL-2.0」を解説します。3Bのアクティブパラメータで256Kコンテキストを処理し、LongVideoBenchで235B超のモデルを上回る長尺動画理解性能を実現しました。
CoT微調整がハイブリッドLLMの長文書検索性能を67%から9%へ激減させる「Attention Amnesia」問題と、追加学習不要の修復法QK-Restoreを解説します。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
SANA-WMとは?単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル