Qwen研究チーム提案の「HopChain」は、複数の推論ステップが論理的に連鎖するマルチホップデータを自動合成してVLMを訓練する4段階パイプライン。24ベンチマーク中20個で性能改善を実現し、超長CoT領域では50ポイント超の向上を達成します。
動画生成モデルが時間的整合性のある映像を生成するために習得した暗黙的な3D構造知識を、明示的な3D監督なしでMLLMへ注入するVEGA-3Dを解説します。複数のシーン理解ベンチマークで既存手法を上回る性能を達成しました。
事前学習済みビデオ拡散モデルを決定論的な深度回帰器に変換する世界初フレームワーク「DVD」を解説します。識別モデル比163倍少ないデータでNYUv2・KITTIなど複数ベンチマークのゼロショットSOTAを達成した3つの核心設計を紹介します。
Tencent AILabが提案するPenguin-VLは、CLIPなどの対比学習エンコーダを廃しLLM初期化のビジョンエンコーダを採用。DocVQAやChartQAなど文書・OCR系ベンチマークでQwen3-VLを上回る性能を2B規模で実現します。
テキスト・画像・動画の3種類のマルチモーダル指示からLottie形式のベクターアニメーションを自動生成するフレームワーク「OmniLottie」を解説します。専用トークナイザーと200万件データセットMMLottie-2Mによる仕組みを詳しく紹介します。
オムニモーダルLLMの推論能力を訓練なしで向上させるフレームワーク「ThinkOmni」を解説します。LRM-as-a-Guide機構とStepwise Contrastive Scalingにより、MathVistaで70.2、MMAUで75.5を達成しました。
DPEは、LMMの弱点をマルチエージェントで診断・標的データ生成・強化学習のループで自律的に改善するフレームワークです。Qwen3-VLで11ベンチマーク全てで継続的な性能向上を達成しています。
エッジデバイス向け統合マルチモーダルモデル「Mobile-O」が発表されました。新設計のMobile Conditioning Projector(MCP)でiPhone上での画像生成を約3秒で実現し、GenEvalで74%のスコアを達成します。
Alibaba X-PLUGのGUIエージェント「GUI-Owl-1.5」がOSWorld 56.5%など20以上のベンチマークでオープンソース最高性能を達成。新強化学習アルゴリズムMRPOとマルチプラットフォーム対応の仕組みを解説します。
2^128サイズのバイナリコードブックを持つ視覚トークナイザー「UniWeTok」が提案されました。従来手法REPA比8分の1以下の33Bトークンで訓練しながらFID 1.38を達成し、画像生成DPGスコア86.63でFLUX.1を上回る性能を示しています。
清華大学が提案するEmbed-RLは、強化学習で埋め込みモデルの推論を最適化する新フレームワークです。4BパラメータでありながらMMEB-V2ベンチマークでスコア68.1を達成し、7Bの既存手法を上回る性能を実現した手法の仕組みと成果を解説します。
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 Baichuan-Omni-1.5は、画像と音声、そしてテキストを処理するために統合的なアーキテクチャを用いたモデ […]
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方
ゴールドマン・サックスがClaude AIを会計業務に導入 — 金融AI活用の最前線
ベクトルデータベース比較【2026年版】Pinecone・Qdrant・Weaviate・Milvusを徹底解説
Step 3.5 Flashとは?110億パラメータでGPT-5.2級の性能を達成したオープンモデル
開発者向け検索AI「Phind 2」登場、視覚的検索強化!