※ AIによる要約
ロボット企業のFigureは、家庭向けの人型ロボット制御に特化した新しいAI言語モデル「Helix」を発表。
Helixは、人型ロボットの制御・知覚・言語理解を統合した汎用型のVision-Language-Action(VLA)モデルであり、わずか500時間の学習データでロボットの上半身全体を精密に制御できる点が特徴。
Figureは視覚と言語を統合したモデルを開発し、映像を学習することで直接ロボットの動作へと変換するアプローチを採用。例えば、「赤い缶を拾って」と指示すると、ロボットが適切な物体を認識し、指示通りに動作する様子が映像で公開。さらに、同じ物体を異なる言い回しで指示しても正確に対応することが確認されています。
Helixは「System 1」と「System 2」という2つの相補的なシステムで構成。
- System 1:約800億のパラメータを持つ高速な動作制御AI。System 2が設定した目標をリアルタイムで実行・調整する役割。
- System 2:視覚と言語を統合した汎用型AI。シーンや物体の理解を担当。約70億のパラメータを持ち、ロボットのカメラから取り込んだ映像や手の動きを処理して適切な行動指針を決定。
この2つのシステムの組み合わせにより、ロボットは素早く精度の高い動作を実現。
Figureによると、Helixの開発はまだ初期段階にあるものの、ヒューマノイドロボットの家庭での実用化に向けた大きな前進だとしています。

Helix: A Vision-Language-Action Model for Generalist Humanoid Control
Figure was founded with the ambition to change the world.