AI-Papers

AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

論文解説の記事一覧 (7ページ目) | AI-Papers

ホーム
論文解説

論文解説

論文解説マルチモーダル

Qwen-VLAとは？操作・ナビゲーション・軌跡予測を統合したクロス体型ロボットAI

Qwenチームが発表したVLAモデル「Qwen-VLA」は、DiTベースのアクションデコーダと体型認識プロンプトにより、物体操作・ナビゲーション・軌跡予測を単一モデルで統合。実世界ロボットでのOOD成功率76.9%を達成しました。

2026年5月29日

Qwen-VLAとは？操作・ナビゲーション・軌跡予測を統合したクロス体型ロボットAI

論文解説マルチモーダル

GEMとは？深度マップ生成でVLMの空間認識を強化しロボット操作精度を向上させる新手法

VLM事前学習に深度マップ生成を補助タスクとして組み込む「GEM」フレームワークを解説。LIBEROで平均96.1%、実世界ロボット実験で43%の成功率を達成した新しいVLA訓練パラダイムを紹介します。

2026年5月28日

GEMとは？深度マップ生成でVLMの空間認識を強化しロボット操作精度を向上させる新手法

論文解説マルチモーダル

Gamma-Worldとは？N人マルチエージェント対応の生成的世界モデルを解説

NVIDIAが提案するGamma-Worldは、生成的世界モデルを任意のN人マルチエージェント環境へ拡張する新手法です。SRAEで順列対称性を保ち、SHAで計算量を線形化し、24FPSのリアルタイム推論を実現します。

2026年5月28日

論文解説マルチモーダル

NEO-ovとは？外部ビジョンエンコーダ不要のネイティブ統合マルチモーダルモデル

外部ビジョンエンコーダとアダプタを一切使わないネイティブ設計VLM「NEO-ov」を解説します。Native RoPEによる時空間統合と3段階学習で、8BモデルがMindCube空間知能ベンチマーク90.0を達成しました。

2026年5月28日

NEO-ovとは？外部ビジョンエンコーダ不要のネイティブ統合マルチモーダルモデル

論文解説言語・LLM

MobileMoEとは？Metaが提案するオンデバイスMoEのスケーリング則と3倍高速モバイル推論

Metaが発表したMobileMoEは、モバイル向けMixture-of-Experts（MoE）アーキテクチャのスケーリング則を体系化した研究です。密モデル比2〜4倍少ない推論FLOPsを実現し、実機で最大3.8倍の高速デコードを達成した手法と成果を解説します。

2026年5月27日

MobileMoEとは？Metaが提案するオンデバイスMoEのスケーリング則と3倍高速モバイル推論

論文解説画像

MRTとは？マスク領域Transformerで3タスクを統合した20B画像生成・編集モデル

マスク領域Transformer（MRT）は、テキスト・画像・レイヤー間の3タスクを統合した20Bパラメータ拡散モデルです。Qwen-Image-Layeredと比較して最大108倍の高速化と90%のメモリ削減を実現し、デザイン向け画像生成・編集の実用性を大幅に高めます。

2026年5月27日

MRTとは？マスク領域Transformerで3タスクを統合した20B画像生成・編集モデル

論文解説言語・LLM

MiniMax-M2とは？全体の4%の起動で実現するフロンティア性能の超疎MoEモデル

229.9Bパラメータのうちトークンあたり9.8B（約4.3%）のみ起動する超疎MoEモデルMiniMax-M2を解説します。AIME 2026で94.2%、GPQA-Diamondで89.8%を達成し、大幅に少ない計算量でフロンティアAIと同等の性能を実現しました。

2026年5月27日

MiniMax-M2とは？全体の4%の起動で実現するフロンティア性能の超疎MoEモデル

論文解説強化学習

QUESTとは？合成データだけでフロンティア閉鎖型エージェントに並ぶ深層調査AIを訓練する新手法

人手アノテーション不要の合成タスク8,000件だけでGPT-4o相当の深層調査エージェントを訓練するQUESTを解説。統一ルーブリック木による自動報酬生成と強化学習の仕組みを紹介します。

2026年5月26日

QUESTとは？合成データだけでフロンティア閉鎖型エージェントに並ぶ深層調査AIを訓練する新手法

論文解説画像

TriSplatとは？三角形プリミティブで3Dシーン再構成し幾何精度40%向上を実現

三角形プリミティブで3Dシーンを再構成するフィードフォワード手法「TriSplat」を解説します。幾何精度40%向上と最大249倍の高速化を実現し、UnityやIsaac Simへの直接インポートにも対応します。

2026年5月26日

TriSplatとは？三角形プリミティブで3Dシーン再構成し幾何精度40%向上を実現

論文解説マルチモーダル

LLaVA-OneVision-2とは？コーデックストリームで動画追跡精度を大幅改善する新手法

圧縮動画をデコードせずコーデックストリームとして処理する新手法「codec-stream tokenization」を解説します。JumpScoreでQwen3-VL-8Bを+44.8ポイント上回り、動画・空間・追跡の3領域で同時改善を実現しました。

2026年5月26日

LLaVA-OneVision-2とは？コーデックストリームで動画追跡精度を大幅改善する新手法

論文解説画像

DARとは？DiTの残差接続を刷新し学習速度8.75倍を実現する新ルーティング手法

DiTの残差接続が抱える前向き膨張・後向き勾配減衰・ブロック冗長性を解決するDAR（Diffusion-Adaptive Routing）を解説。FIDスコアを9.67から7.56に改善し、学習ステップを8.75分の1に短縮します。

2026年5月25日

DARとは？DiTの残差接続を刷新し学習速度8.75倍を実現する新ルーティング手法

論文解説画像

PiDとは？ピクセル拡散デコーダで4〜8倍高解像度化と最大6倍高速化を同時実現する新手法

NVIDIAが提案するPiDは、潜在拡散モデルのVAEデコーダをピクセル空間の拡散プロセスに置き換え、512×512の潜在変数から2048×2048の高解像度画像を生成する新手法です。SeedVR2比で5.9倍の速度向上を達成しつつ、視覚品質の改善も示されています。

2026年5月25日

論文解説

Qwen-VLAとは？操作・ナビゲーション・軌跡予測を統合したクロス体型ロボットAI

GEMとは？深度マップ生成でVLMの空間認識を強化しロボット操作精度を向上させる新手法

Gamma-Worldとは？N人マルチエージェント対応の生成的世界モデルを解説

NEO-ovとは？外部ビジョンエンコーダ不要のネイティブ統合マルチモーダルモデル

MobileMoEとは？Metaが提案するオンデバイスMoEのスケーリング則と3倍高速モバイル推論

MRTとは？マスク領域Transformerで3タスクを統合した20B画像生成・編集モデル

MiniMax-M2とは？全体の4%の起動で実現するフロンティア性能の超疎MoEモデル

QUESTとは？合成データだけでフロンティア閉鎖型エージェントに並ぶ深層調査AIを訓練する新手法

TriSplatとは？三角形プリミティブで3Dシーン再構成し幾何精度40%向上を実現

LLaVA-OneVision-2とは？コーデックストリームで動画追跡精度を大幅改善する新手法

DARとは？DiTの残差接続を刷新し学習速度8.75倍を実現する新ルーティング手法

PiDとは？ピクセル拡散デコーダで4〜8倍高解像度化と最大6倍高速化を同時実現する新手法

人気記事