AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

© 2026 AI-Papers. All rights reserved.

マルチモーダルの記事一覧 | AI-Papers

ホーム
論文解説
マルチモーダル

マルチモーダル

論文解説マルチモーダル

OpenSearch-VLとは？マルチモーダル深層検索エージェントの完全公開訓練レシピを解説

Tencent Hunyuanが提案するマルチモーダル深層検索エージェント「OpenSearch-VL」の完全公開訓練レシピを解説。致命的意識GRPOと多ツール環境により7ベンチマークで10ポイント超の改善を達成しています。

2026年5月7日

OpenSearch-VLとは？マルチモーダル深層検索エージェントの完全公開訓練レシピを解説

論文解説マルチモーダル

MolmoAct2とは？GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説

Allen AIが公開した完全オープンVLAモデル「MolmoAct2」を解説します。VLMバックボーンMolmoERがGPT-5・Gemini Roboticsを超え、実環境でPi-0.5を上回る仕組みを詳しく紹介します。

2026年5月5日

MolmoAct2とは？GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説

論文解説マルチモーダル

Eywaとは？科学基盤モデルをLLMエージェントに統合するヘテロジニアスフレームワーク

UIUCが提案するEywaは、時系列・表形式データを扱う科学基盤モデルをLLMエージェントと統合するフレームワークです。3層設計と双方向Tsaheyluインターフェースにより、従来比7%の性能向上と30%のトークン削減を実証しました。

2026年5月3日

Eywaとは？科学基盤モデルをLLMエージェントに統合するヘテロジニアスフレームワーク

論文解説マルチモーダル

MiniCPM-o 4.5とは？全二重リアルタイム・オムニモーダルインタラクションを9Bで実現

9BパラメータながらGemini 2.5 Flashに匹敵する視覚言語性能を実現したMiniCPM-o 4.5。Omni-Flowが可能にする全二重リアルタイム対話の仕組みと性能を解説します。

2026年5月1日

MiniCPM-o 4.5とは？全二重リアルタイム・オムニモーダルインタラクションを9Bで実現

論文解説マルチモーダル

Sapiens2とは？MetaのヒューマンAI基盤モデルが5Bパラメータ・4K解像度で姿勢・法線・点群推定を統合

MetaのFacebook Researchが発表したSapiens2は、10億枚の人物画像で事前学習した0.4B〜5Bパラメータの統合基盤モデルです。姿勢推定+4 mAP・法線推定誤差45.6%削減を達成し、ICLR 2026に採択されました。

2026年4月29日

Sapiens2とは？MetaのヒューマンAI基盤モデルが5Bパラメータ・4K解像度で姿勢・法線・点群推定を統合

論文解説マルチモーダル

LLaDA2.0-Uniとは？離散拡散LLMで理解・生成・編集を統合するマルチモーダルの新手法

離散拡散LLMを採用したLLaDA2.0-Uniは、SigLIP-VQ・MoEバックボーン・拡散デコーダの3層構造で、テキスト理解・画像生成・画像編集を単一モデルで統合します。その仕組みと実験成果を詳しく解説します。

2026年4月24日

LLaDA2.0-Uniとは？離散拡散LLMで理解・生成・編集を統合するマルチモーダルの新手法

論文解説マルチモーダル

PersonaVLMとは？長期記憶と強化学習で進化するパーソナライズドマルチモーダルLLM

CVPR 2026採択。4種類のメモリ構造とBig Five性格モデルで時間的に進化するユーザープロファイルを構築し、Persona-MMEベンチマークで既存手法比22.4%向上・GPT-4oを5.2%上回るパーソナライズドマルチモーダルLLM「PersonaVLM」を解説します。

2026年4月20日

PersonaVLMとは？長期記憶と強化学習で進化するパーソナライズドマルチモーダルLLM

論文解説マルチモーダル

HY-World 2.0とは？テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル

Tencent Hunyuanが開発したHY-World 2.0は、テキスト・画像・動画から探索可能な3D Gaussian Splattingシーンを生成する統合ワールドモデルです。5つの専門モジュールが連携し、オープンソースながらクローズドソースのMarbleと同等の性能を実現しました。

2026年4月17日

HY-World 2.0とは？テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル

論文解説マルチモーダル

WildDet3D とは？テキスト・点・ボックスプロンプトで動く単眼3D物体検出の仕組み

Allen Institute for AI が発表した WildDet3D は、単一RGB画像からオープンワールドの3D物体検出を行うフレームワークです。テキスト・点・ボックスの3種プロンプトに対応し、複数ベンチマークで最高精度を達成しました。

2026年4月14日

WildDet3D とは？テキスト・点・ボックスプロンプトで動く単眼3D物体検出の仕組み

論文解説マルチモーダル

HY-Embodied-0.5とは？ロボット専用VLMがGemini 3.0 Proを超えた仕組み

Tencent Hunyuanが発表したロボット専用VLM「HY-Embodied-0.5」を解説します。MoTアーキテクチャの仕組みから22ベンチマーク中16項目での最優秀達成、実ロボット操作の検証結果まで詳しく紹介します。

2026年4月11日

HY-Embodied-0.5とは？ロボット専用VLMがGemini 3.0 Proを超えた仕組み

論文解説マルチモーダル

Know3Dとは？VLMの中間潜在特徴で3D裏面構造をテキスト制御する新手法

単視点3D生成で問題だった裏面の「確率的生成」を解決するKnow3Dを解説。Qwen2.5-VLのMMDiT中間層hidden statesを3D生成モデルへ注入し、HY3D-BenchでSOTA超えを達成した手法を紹介します。

2026年3月31日

Know3Dとは？VLMの中間潜在特徴で3D裏面構造をテキスト制御する新手法

論文解説マルチモーダル

Intern-S1-Proとは？1兆パラメータ科学マルチモーダルモデルの仕組みと性能

InternLMが発表したIntern-S1-Proは、MoEアーキテクチャで1兆パラメータを実現したオープンソース初の科学マルチモーダル基盤モデルです。化学・材料科学・生命科学など100以上の専門タスクでプロプライエタリモデルを上回る性能を達成しました。

2026年3月29日

Intern-S1-Proとは？1兆パラメータ科学マルチモーダルモデルの仕組みと性能

前へ
1
2
3
次へ

カテゴリ

論文解説
ニュース
- 技術
- ビジネス
AI最前線コラム

人気記事

HY-World 2.0とは？テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル
2026年4月17日
Anthropic、Coefficient Bioを約4億ドルで買収、AI創薬に本格参入
2026年4月4日
ベクトルデータベース比較【2026年版】Pinecone・Qdrant・Weaviate・Milvusを徹底解説
2026年2月23日
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方
2026年2月19日
Absolicsのガラス基板とは？AIチップ性能を10倍高密度化する次世代パッケージング
2026年3月15日