視覚言語モデルの動画イベント予測に、言語トークンと視覚潜在スパンを交互生成する「Future-L1」を紹介。FutureBenchでQwen3-VL-8Bを61.0→85.4(+24.4点)に改善した手法の仕組みを解説します。
ルーティングインデックスをクロスレイヤーで共有するCLSAが、128Kコンテキストでスループット17.1倍・デコーディング7.6倍を実現。精度劣化はほぼゼロで長文脈LLMに広く適用可能な新手法を解説します。
自律的にMLアルゴリズムを発見する新フレームワーク「MLEvolve」を解説。12時間の予算でMLE-Benchにて65.3%のメダル率を達成し、AlphaEvolveを上回る汎用性を示しました。
北京大学発の5Bパラメータ動画モデル「LoomVideo」は、MLLMをバックボーンに採用して動画生成と編集を統合。Scale-and-Add条件付けにより類似性能帯モデル比5.41倍の推論高速化を実現しています。
強化学習で学んだ推論チェーンの冗長なステップを内省的に特定し、マスク付き選好最適化で圧縮する新手法「ThoughtFold」。DeepSeek-R1-Distill-Qwen-7Bでトークン使用量を約56%削減しながら最先端の精度を維持します。
自己回帰動画生成を1ステップに圧縮するAAD-1を解説します。因果的な生成器と双方向識別器の非対称設計で動きの崩壊を克服し、VBenchで既存の4ステップ手法を上回るSOTAを達成しました。
24時間超・130万フレーム以上の動画をリアルタイム生成する初のフレームワーク「Echo-Infinity」を解説。人間の記憶統合に着想した学習可能メモリと改良版RoPEで、短尺・長尺の両タスクでSoTAを達成しました。
0.6B・1.7Bの小型モデルで自身の2〜6倍サイズの汎用LLMと同等以上の性能を達成したOCC-RAGを解説します。325万件の合成データで訓練し、逐語引用による構造化推論と回答不能時の棄権機能を備えた忠実性重視の設計が特徴です。
ペアデータなしで画像・動画編集モデルを訓練できるフレームワーク「ByG」がICML 2026に採択されました。凍結した基盤モデルのEMAコピーで疑似ターゲットを生成し、循環一貫性と勾配ルーティングで100万ペアの教師あり手法を上回る性能を実証しています。
人間の睡眠中の記憶統合を着想源に、LLM向け「Sleep」パラダイムを提案。Knowledge SeedingとDreamingの2段階で壊滅的忘却を抑制し、数学推論・長文脈理解など複数タスクで既存手法を上回ることを実証した。
複数の専門エージェントが役割分担して科学図表を自動生成する「Crafter」を解説。従来手法比+39ポイントの性能向上と、ラスター画像をSVGに変換するCraftEditorも同時公開。
投機的デコーディングの新手法「Domino」を解説します。並列ドラフト生成と軽量な因果補正の2段構成で、Qwen3-8BのLLM推論を最大5.8倍高速化しました。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング