AI-Papers

AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

マルチモーダルの記事一覧 (2ページ目) | AI-Papers

ホーム
論文解説
マルチモーダル

マルチモーダル

論文解説マルチモーダル

MemDreamerとは？階層グラフメモリで長時間動画理解の精度を12.5ポイント向上

知覚と推論を分離するフレームワーク「MemDreamer」が、全文入力の2%というコンテキスト量で長時間動画理解の精度を12.5ポイント向上し、4つのベンチマークでSOTAを達成しました。

2026年6月8日

MemDreamerとは？階層グラフメモリで長時間動画理解の精度を12.5ポイント向上

論文解説マルチモーダル

Astraとは？世界シミュレーターで未見視点の空間推論を習得するVLMフレームワーク

世界シミュレーターを外部ツールとして呼び出し「未見視点の画像」を生成してから推論するVLMフレームワーク「Astra」を解説。2段階の強化学習でMMSI-Benchの精度を+9.0点改善した仕組みを紹介します。

2026年6月6日

Astraとは？世界シミュレーターで未見視点の空間推論を習得するVLMフレームワーク

論文解説マルチモーダル

Future-L1とは？視覚潜在空間で「想像」してから予測するVLM動画推論の新手法

視覚言語モデルの動画イベント予測に、言語トークンと視覚潜在スパンを交互生成する「Future-L1」を紹介。FutureBenchでQwen3-VL-8Bを61.0→85.4（+24.4点）に改善した手法の仕組みを解説します。

2026年6月6日

Future-L1とは？視覚潜在空間で「想像」してから予測するVLM動画推論の新手法

論文解説マルチモーダル

Crafterとは？多エージェント協調で論文品質の科学図表を自動生成するフレームワーク

複数の専門エージェントが役割分担して科学図表を自動生成する「Crafter」を解説。従来手法比+39ポイントの性能向上と、ラスター画像をSVGに変換するCraftEditorも同時公開。

2026年6月2日

Crafterとは？多エージェント協調で論文品質の科学図表を自動生成するフレームワーク

論文解説マルチモーダル

Representation Forcingとは？VAEを排除して画像生成と理解を統合する新手法

VAEを排除し、デコーダが視覚表現を自己回帰的に予測するRepresentation Forcing（RF）。画像生成でVAEベース手法と同等スコアを達成し、理解タスクでも8指標中6指標で上回った。

2026年6月1日

Representation Forcingとは？VAEを排除して画像生成と理解を統合する新手法

論文解説マルチモーダル

VLM3とは？3要素だけで標準VLMが深度推定・カメラポーズ推定を専門モデル並みに解く新手法

MetaとPrinceton大学が提案するVLM3は、焦点距離統一・テキストでのピクセル参照・データスケーリングの3要素のみで、深度推定δ₁精度0.90・カメラポーズ推定AUC94%など多様な3Dタスクを専門モデル並みに解けることを実証した研究を解説します。

2026年6月1日

VLM3とは？3要素だけで標準VLMが深度推定・カメラポーズ推定を専門モデル並みに解く新手法

論文解説マルチモーダル

NAVAとは？音声と映像をネイティブ同期生成する6.3Bモデルの仕組みを解説

BaiduのERNIEグループが提案するNAVAは、音声と映像を専用空間で対応付けてから文脈条件付けを行う「Align-then-Fuse」方式を採用し、6.3Bパラメータで大規模な既存手法を超える音声映像同期精度と映像品質を実現します。

2026年5月31日

論文解説マルチモーダル

EarlyTomとは？動画VLMのトークン早期圧縮で推論を最大2.65倍高速化

動画VLMの推論遅延を最大2.65倍短縮するトレーニング不要フレームワーク「EarlyTom」を解説します。視覚エンコーダ内部での早期トークン圧縮と分離型空間選択により、FLOPs 61%削減と高精度維持を両立しています。

2026年5月30日

論文解説マルチモーダル

Qwen-VLAとは？操作・ナビゲーション・軌跡予測を統合したクロス体型ロボットAI

Qwenチームが発表したVLAモデル「Qwen-VLA」は、DiTベースのアクションデコーダと体型認識プロンプトにより、物体操作・ナビゲーション・軌跡予測を単一モデルで統合。実世界ロボットでのOOD成功率76.9%を達成しました。

2026年5月29日

Qwen-VLAとは？操作・ナビゲーション・軌跡予測を統合したクロス体型ロボットAI

論文解説マルチモーダル

GEMとは？深度マップ生成でVLMの空間認識を強化しロボット操作精度を向上させる新手法

VLM事前学習に深度マップ生成を補助タスクとして組み込む「GEM」フレームワークを解説。LIBEROで平均96.1%、実世界ロボット実験で43%の成功率を達成した新しいVLA訓練パラダイムを紹介します。

2026年5月28日

GEMとは？深度マップ生成でVLMの空間認識を強化しロボット操作精度を向上させる新手法

論文解説マルチモーダル

Gamma-Worldとは？N人マルチエージェント対応の生成的世界モデルを解説

NVIDIAが提案するGamma-Worldは、生成的世界モデルを任意のN人マルチエージェント環境へ拡張する新手法です。SRAEで順列対称性を保ち、SHAで計算量を線形化し、24FPSのリアルタイム推論を実現します。

2026年5月28日

論文解説マルチモーダル

NEO-ovとは？外部ビジョンエンコーダ不要のネイティブ統合マルチモーダルモデル

外部ビジョンエンコーダとアダプタを一切使わないネイティブ設計VLM「NEO-ov」を解説します。Native RoPEによる時空間統合と3段階学習で、8BモデルがMindCube空間知能ベンチマーク90.0を達成しました。

2026年5月28日

マルチモーダル

MemDreamerとは？階層グラフメモリで長時間動画理解の精度を12.5ポイント向上

Astraとは？世界シミュレーターで未見視点の空間推論を習得するVLMフレームワーク

Future-L1とは？視覚潜在空間で「想像」してから予測するVLM動画推論の新手法

Crafterとは？多エージェント協調で論文品質の科学図表を自動生成するフレームワーク

Representation Forcingとは？VAEを排除して画像生成と理解を統合する新手法

VLM3とは？3要素だけで標準VLMが深度推定・カメラポーズ推定を専門モデル並みに解く新手法

NAVAとは？音声と映像をネイティブ同期生成する6.3Bモデルの仕組みを解説

EarlyTomとは？動画VLMのトークン早期圧縮で推論を最大2.65倍高速化

Qwen-VLAとは？操作・ナビゲーション・軌跡予測を統合したクロス体型ロボットAI

GEMとは？深度マップ生成でVLMの空間認識を強化しロボット操作精度を向上させる新手法

Gamma-Worldとは？N人マルチエージェント対応の生成的世界モデルを解説

NEO-ovとは？外部ビジョンエンコーダ不要のネイティブ統合マルチモーダルモデル

人気記事