Microsoft、新AI「Magma」発表!現実対応の次世代エージェント

ニュース
  • Microsoft、新AI基盤モデル『Magma』発表
  • 観察に基づく行動選択と高精度なUI操作対応
  • ロボット制御や多用途活用で高い汎用性

※ AIによる要約

Microsoftは2025年2月、現実世界の状況やデバイス上の画面を認識し、適切に行動できるマルチモーダルAIエージェントの基盤モデル「Magma」を発表。

Magmaは、画像や映像を識別するだけでなく、観察に基づいて適切な行動を選択する能力を持つとのこと。Microsoftによると、本モデルは言語的な知能と、空間的・時間的な知能を兼ね備えており、デジタル環境だけでなく現実世界においても活用できるのが特徴。

Magmaは入力された画像や映像をビジョンエンコーダーによってトークン化し、ウェブページや写真のテキストも直接処理します。これらのデータを基に、言語生成、空間認識、行動決定といった多様な出力を行う仕組みです。さらに、追加の微調整なしでUIナビゲーション、ロボット操作など幅広い用途に対応可能。

実際のベンチマークテストでは、GPT-4やLLaVA-1.5といった既存のモデルと比較しても、高いパフォーマンスを示しました。Microsoftが公開したデモ動画では、Magmaが囲碁の次の最適手を提案したり、リラックスするための活動を推奨したりする様子が確認できます。

さらにMagmaはロボット制御にも対応しており、たとえば「マッシュルームを持ち上げてボウルに入れて」といった指示を適切に処理し、実行する能力を備えているといいます。

Magmaのモデルデータや関連コードの詳細は公式GitHubページで確認可能。

Magma: A Foundation Model for Multimodal AI Agents
タイトルとURLをコピーしました