知覚と推論を分離するフレームワーク「MemDreamer」が、全文入力の2%というコンテキスト量で長時間動画理解の精度を12.5ポイント向上し、4つのベンチマークでSOTAを達成しました。
世界シミュレーターを外部ツールとして呼び出し「未見視点の画像」を生成してから推論するVLMフレームワーク「Astra」を解説。2段階の強化学習でMMSI-Benchの精度を+9.0点改善した仕組みを紹介します。
視覚言語モデルの動画イベント予測に、言語トークンと視覚潜在スパンを交互生成する「Future-L1」を紹介。FutureBenchでQwen3-VL-8Bを61.0→85.4(+24.4点)に改善した手法の仕組みを解説します。
複数の専門エージェントが役割分担して科学図表を自動生成する「Crafter」を解説。従来手法比+39ポイントの性能向上と、ラスター画像をSVGに変換するCraftEditorも同時公開。
VAEを排除し、デコーダが視覚表現を自己回帰的に予測するRepresentation Forcing(RF)。画像生成でVAEベース手法と同等スコアを達成し、理解タスクでも8指標中6指標で上回った。
MetaとPrinceton大学が提案するVLM3は、焦点距離統一・テキストでのピクセル参照・データスケーリングの3要素のみで、深度推定δ₁精度0.90・カメラポーズ推定AUC94%など多様な3Dタスクを専門モデル並みに解けることを実証した研究を解説します。
BaiduのERNIEグループが提案するNAVAは、音声と映像を専用空間で対応付けてから文脈条件付けを行う「Align-then-Fuse」方式を採用し、6.3Bパラメータで大規模な既存手法を超える音声映像同期精度と映像品質を実現します。
動画VLMの推論遅延を最大2.65倍短縮するトレーニング不要フレームワーク「EarlyTom」を解説します。視覚エンコーダ内部での早期トークン圧縮と分離型空間選択により、FLOPs 61%削減と高精度維持を両立しています。
Qwenチームが発表したVLAモデル「Qwen-VLA」は、DiTベースのアクションデコーダと体型認識プロンプトにより、物体操作・ナビゲーション・軌跡予測を単一モデルで統合。実世界ロボットでのOOD成功率76.9%を達成しました。
VLM事前学習に深度マップ生成を補助タスクとして組み込む「GEM」フレームワークを解説。LIBEROで平均96.1%、実世界ロボット実験で43%の成功率を達成した新しいVLA訓練パラダイムを紹介します。
NVIDIAが提案するGamma-Worldは、生成的世界モデルを任意のN人マルチエージェント環境へ拡張する新手法です。SRAEで順列対称性を保ち、SHAで計算量を線形化し、24FPSのリアルタイム推論を実現します。
外部ビジョンエンコーダとアダプタを一切使わないネイティブ設計VLM「NEO-ov」を解説します。Native RoPEによる時空間統合と3段階学習で、8BモデルがMindCube空間知能ベンチマーク90.0を達成しました。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング