Qwenチームが発表したVLAモデル「Qwen-VLA」は、DiTベースのアクションデコーダと体型認識プロンプトにより、物体操作・ナビゲーション・軌跡予測を単一モデルで統合。実世界ロボットでのOOD成功率76.9%を達成しました。
VLM事前学習に深度マップ生成を補助タスクとして組み込む「GEM」フレームワークを解説。LIBEROで平均96.1%、実世界ロボット実験で43%の成功率を達成した新しいVLA訓練パラダイムを紹介します。
NVIDIAが提案するGamma-Worldは、生成的世界モデルを任意のN人マルチエージェント環境へ拡張する新手法です。SRAEで順列対称性を保ち、SHAで計算量を線形化し、24FPSのリアルタイム推論を実現します。
外部ビジョンエンコーダとアダプタを一切使わないネイティブ設計VLM「NEO-ov」を解説します。Native RoPEによる時空間統合と3段階学習で、8BモデルがMindCube空間知能ベンチマーク90.0を達成しました。
Metaが発表したMobileMoEは、モバイル向けMixture-of-Experts(MoE)アーキテクチャのスケーリング則を体系化した研究です。密モデル比2〜4倍少ない推論FLOPsを実現し、実機で最大3.8倍の高速デコードを達成した手法と成果を解説します。
マスク領域Transformer(MRT)は、テキスト・画像・レイヤー間の3タスクを統合した20Bパラメータ拡散モデルです。Qwen-Image-Layeredと比較して最大108倍の高速化と90%のメモリ削減を実現し、デザイン向け画像生成・編集の実用性を大幅に高めます。
229.9Bパラメータのうちトークンあたり9.8B(約4.3%)のみ起動する超疎MoEモデルMiniMax-M2を解説します。AIME 2026で94.2%、GPQA-Diamondで89.8%を達成し、大幅に少ない計算量でフロンティアAIと同等の性能を実現しました。
人手アノテーション不要の合成タスク8,000件だけでGPT-4o相当の深層調査エージェントを訓練するQUESTを解説。統一ルーブリック木による自動報酬生成と強化学習の仕組みを紹介します。
三角形プリミティブで3Dシーンを再構成するフィードフォワード手法「TriSplat」を解説します。幾何精度40%向上と最大249倍の高速化を実現し、UnityやIsaac Simへの直接インポートにも対応します。
圧縮動画をデコードせずコーデックストリームとして処理する新手法「codec-stream tokenization」を解説します。JumpScoreでQwen3-VL-8Bを+44.8ポイント上回り、動画・空間・追跡の3領域で同時改善を実現しました。
DiTの残差接続が抱える前向き膨張・後向き勾配減衰・ブロック冗長性を解決するDAR(Diffusion-Adaptive Routing)を解説。FIDスコアを9.67から7.56に改善し、学習ステップを8.75分の1に短縮します。
NVIDIAが提案するPiDは、潜在拡散モデルのVAEデコーダをピクセル空間の拡散プロセスに置き換え、512×512の潜在変数から2048×2048の高解像度画像を生成する新手法です。SeedVR2比で5.9倍の速度向上を達成しつつ、視覚品質の改善も示されています。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング