DPEは、LMMの弱点をマルチエージェントで診断・標的データ生成・強化学習のループで自律的に改善するフレームワークです。Qwen3-VLで11ベンチマーク全てで継続的な性能向上を達成しています。
エッジデバイス向け統合マルチモーダルモデル「Mobile-O」が発表されました。新設計のMobile Conditioning Projector(MCP)でiPhone上での画像生成を約3秒で実現し、GenEvalで74%のスコアを達成します。
Alibaba X-PLUGのGUIエージェント「GUI-Owl-1.5」がOSWorld 56.5%など20以上のベンチマークでオープンソース最高性能を達成。新強化学習アルゴリズムMRPOとマルチプラットフォーム対応の仕組みを解説します。
2^128サイズのバイナリコードブックを持つ視覚トークナイザー「UniWeTok」が提案されました。従来手法REPA比8分の1以下の33Bトークンで訓練しながらFID 1.38を達成し、画像生成DPGスコア86.63でFLUX.1を上回る性能を示しています。
清華大学が提案するEmbed-RLは、強化学習で埋め込みモデルの推論を最適化する新フレームワークです。4BパラメータでありながらMMEB-V2ベンチマークでスコア68.1を達成し、7Bの既存手法を上回る性能を実現した手法の仕組みと成果を解説します。
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 Baichuan-Omni-1.5は、画像と音声、そしてテキストを処理するために統合的なアーキテクチャを用いたモデ […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本論文では、新しいフレームワーク「Dispider」を提案し、動画とLLMを統合してリアルタイムでの対話を可能にす […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本研究では、ロボットが人の指示に基づいて一般的な物体操作を行う能力を向上させる新しいアプローチ「OmniManip […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 VideoRAGは、既存のRAG(Retrieval-Augmented Generation)フレームワークを動 […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、数学的推論が必要なマルチモーダルな問題解決において、モデルが適切かつ信頼性の高い「思考の連鎖(Cha […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本研究では、「Virgo」というマルチモーダル大規模言語モデル(MLLM)の開発を通じて、視覚推論と呼ばれる複雑な […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 VITA-1.5は、音声と視覚のマルチモーダルなリアルタイムインタラクションを目指したモデルとして提案されました。 […]
Anthropic、Coefficient Bioを約4億ドルで買収、AI創薬に本格参入
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング
ベクトルデータベース比較【2026年版】Pinecone・Qdrant・Weaviate・Milvusを徹底解説
ゴールドマン・サックスがClaude AIを会計業務に導入 — 金融AI活用の最前線