Strands Robots SDK公開 — HuggingFaceから実機ロボットへ一元展開

AWSが公開したオープンソースの「Strands Robots SDK」は、シミュレーションから実機ロボットへの移行をキーワード1つで実現する
HuggingFace Hubで公開されているGR00T（NVIDIA）やMolmoAct2（Allen Institute for AI）などのVLAモデルを即座に実機展開できる
LeRobotとの統合により、シミュレーションと実機で全く同じデータセット形式・コードベースを共有できる設計になっている

Strands Robots SDKとは

AWSは2026年6月、ロボット制御向けオープンソースライブラリ「Strands Robots SDK（Apache 2.0ライセンス）」を公開しました。このSDKは、カメラ制御や関節操作といったロボットの基本機能を「AgentTool」として抽象化し、Strands Agentsのワークフローに組み込めるようにした点が特徴です。

従来のロボット開発では、シミュレーション環境と実機では使用するライブラリやデータ形式が異なり、移行のたびに変換作業が発生していました。Strands Robots SDKはHuggingFaceのLeRobotフレームワークと連携することで、この問題を解消するパイプラインを提供します。

LeRobotとの統合の仕組み

Strands Robots SDKとLeRobotの統合は、意図的にシンプルな設計になっています。LeRobotがハードウェアの制御・キャリブレーション・データセット形式の管理を担い、Strands SDKはその上にAgentToolの抽象層を追加する役割分担です。

最も重要なポイントは、シミュレーションで記録したLeRobotDatasetが実機と完全に同一のフォーマットになることです。MuJoCoシミュレーターで収集したデモンストレーションデータは、SO-101実機アームで取得したものと互換性があり、変換ステップが不要です。モデルの推論を呼び出す際も、設定パラメータ `mode="real"` への変更1つで実機に切り替えられる承認ゲートも組み込まれました。

対応するAIモデルの種類

このパイプラインでは複数の物理AIモデルを扱えます。NVIDIAが公開するGR00Tはコンテナ化された推論サーバーとして動作し、16GB以上のVRAMを搭載したNVIDIA GPUが必要です。Allen Institute for AIが開発したMolmoAct2（パラメータ数: 50億）はHuggingFace HubのcheckpointをLerobotLocal経由でプロセス内に読み込む方式で利用できます。

LerobotLocalを通じて利用できるモデルはほかにもあります。映像を常時監視するVLMの研究でも注目される視覚言語行動モデル（VLA）として、ACT、拡散ポリシー、SmolVLA（0.5Bパラメータ）、π0（40億パラメータ）、π0.5などが選択肢に挙がります。また、学習済みcheckpointがない状態でもワークフロー全体を検証できるモックポリシーも用意されています。

5ステップの実装フロー

公開されているサンプルは5段階のステップで構成されます。まず環境をセットアップし、MuJoCoシミュレーター上でSO-100リーダーアームを操作してデモンストレーションを記録します。次に記録したデータセットを使って方策（ポリシー）をシミュレーターで動かし、動作を確認します。

そこから実機のSO-101フォロワーアームへの移行は、設定のキーワード変更1つで完了します。最後に、Zenohメッシュネットワークを使った複数台のロボット（フリート）への同時配信もサポートしています。デフォルトのシミュレーションパスはGPU・Docker・HuggingFaceアカウントなしで動かせるため、環境準備のハードルが低い設計です。

物理AI開発の課題を埋める意義

2026年は物理AIとロボティクスへの注目が一段と高まる年となっています。しかし、大規模言語モデルやVLAモデルの研究が進む一方で、実機展開の「最後の1マイル」に相当するデプロイ基盤は整備が遅れていました。Strands Robots SDKはHuggingFace Hubで公開されているモデル資産をそのまま実機に持ち込める橋渡し役として位置づけられており、ロボット研究から実用化への加速が見込まれます。

オープンソース（Apache 2.0）での公開により、研究機関・スタートアップ・個人開発者がこのパイプラインを自由に利用・改変できる点も、エコシステム全体への波及効果が期待できます。