マルチモーダル 視覚言語モデル活用を活用しロボ操作を改善する「OmniManip」 新アプローチ「OmniManip」を提案し、ロボットの物体操作を改善。視覚言語モデルを活用してタスク情報を抽出し、インタラクションプリミティブを生成。日常的なタスクで高い成功率を確認した。 2025.01.31 マルチモーダル論文解説