※ AIによる要約
Microsoftは2025年2月、現実世界の状況やデバイス上の画面を認識し、適切に行動できるマルチモーダルAIエージェントの基盤モデル「Magma」を発表。
Magmaは、画像や映像を識別するだけでなく、観察に基づいて適切な行動を選択する能力を持つとのこと。Microsoftによると、本モデルは言語的な知能と、空間的・時間的な知能を兼ね備えており、デジタル環境だけでなく現実世界においても活用できるのが特徴。
Magmaは入力された画像や映像をビジョンエンコーダーによってトークン化し、ウェブページや写真のテキストも直接処理します。これらのデータを基に、言語生成、空間認識、行動決定といった多様な出力を行う仕組みです。さらに、追加の微調整なしでUIナビゲーション、ロボット操作など幅広い用途に対応可能。
実際のベンチマークテストでは、GPT-4やLLaVA-1.5といった既存のモデルと比較しても、高いパフォーマンスを示しました。Microsoftが公開したデモ動画では、Magmaが囲碁の次の最適手を提案したり、リラックスするための活動を推奨したりする様子が確認できます。
さらにMagmaはロボット制御にも対応しており、たとえば「マッシュルームを持ち上げてボウルに入れて」といった指示を適切に処理し、実行する能力を備えているといいます。
Magmaのモデルデータや関連コードの詳細は公式GitHubページで確認可能。
Magma: A Foundation Model for Multimodal AI Agents