HuggingFace Jobsで vLLM 推論サーバーをコマンド1つで起動 — プロビジョニング不要のLLMエンドポイント

HuggingFace Jobsで vLLM の OpenAI 互換エンドポイントをコマンド1つで起動可能になった。サーバー構築や Kubernetes の知識は不要
A10G から H200×8 までの GPU フレーバーを選択でき、秒単位の従量課金で実験・評価向けに柔軟に使える
全リクエストに HuggingFace トークンが必須で、エンドポイントへのアクセスはユーザー・組織単位でゲートされる

2026年6月の発表概要

2026年6月26日、HuggingFace は公式ブログで「HuggingFace Jobs 上で vLLM 推論サーバーをコマンド1つで起動する方法」を発表した。サーバーのプロビジョニングも Kubernetes の設定も不要で、huggingface_hub のバージョン 1.20.0 以上をインストールして HuggingFace アカウントにログインするだけで、本番レベルの OpenAI 互換エンドポイントをすぐに利用できる。

HuggingFace Jobs は、GPU リソースの確保から環境構築までの手間を抽象化したジョブ実行サービスで、今回はその上で LLM 推論に広く使われるフレームワーク vLLM（Large Language Model 推論・サービングエンジン）の公式 Docker イメージを直接実行できるようになった。

コマンド例と基本的な使い方

たとえば Qwen/Qwen3-4B を A10G GPU で起動する場合、以下のコマンドを実行するだけでエンドポイントが立ち上がる。

hf jobs run --flavor a10g-large --expose 8000 --timeout 2h vllm/vllm-openai:latest vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000

--flavor で GPU の種類を、--expose でコンテナのポートを、--timeout で自動停止までの時間を指定する。起動後はジョブ ID が払い出され、https://<job_id>--8000.hf.jobs/v1/chat/completions という URL でアクセスできる。認証には HuggingFace トークンをそのまま Bearer トークンとして使用するため、既存の HuggingFace アカウントで完結する。

大規模モデルを複数 GPU で動かす場合も同様のコマンド体系で対応できる。122B パラメータの Qwen/Qwen3.5-122B-A10B を 2 枚の H200 で起動する際は --tensor-parallel-size 2 を追加し、--max-model-len 32768 でコンテキスト長を、--max-num-seqs 256 で並行処理数を制御する。利用可能なハードウェア構成は hf jobs hardware コマンドで一覧表示できる。

対応 GPU と料金体系

発表時点で利用可能な主なフレーバーとして、記事では a10g-large（A10G GPU 搭載、時間あたり 1.50 ドル）、h200x2（H200 GPU 2 枚）、h200x8（H200 GPU 8 枚）が例示されている。いずれも秒単位の従量課金で、使い終わったら hf jobs cancel <job_id> で明示的にキャンセルすることで無駄なコストを抑えられると説明されている。

前提条件は支払い方法またはプリペイドクレジットの登録に加え、huggingface_hub >= 1.20.0 のインストールと hf auth login によるローカル認証のみだ。

対応モデルと拡張オプション

HuggingFace がホストするモデルであれば基本的にそのまま指定できる。発表記事では Qwen シリーズが具体例として取り上げられているが、モデル ID を変更するだけで他の公開モデルにも対応できる仕組みになっている。

また、思考ステップを別途パースしたい場合は --reasoning-parser deepseek_r1 オプションを追加でき、コーディングエージェントのバックエンドとして使う場合は --enable-auto-tool-choice でツール呼び出しを有効化できる。Gradio を使ったチャット UI の構築例や、hf jobs ssh <job_id> による SSH デバッグも記事内で紹介されており、実験・評価・バッチ生成といった用途を一通りカバーしている。

OpenAI の Python クライアントからは base_url にエンドポイント URL を、api_key に HuggingFace トークンを渡すだけで既存のコードをほぼそのまま流用できる。vLLM は OpenAI 互換 API を話せると HuggingFace は説明しており、移行コストを最小化するうえでの利点として位置づけている。

HuggingFace Jobs と Inference Endpoints の違い

HuggingFace は今回の機能について、同社が提供するもう一つのサービス「Inference Endpoints」との使い分けも明示している。HuggingFace Jobs は柔軟性と制御性を最大化したい実験・評価・バッチ生成向けのサービスで、秒単位課金でコストを抑えながら素早くプロトタイプを構築したい開発者に向いている。一方 Inference Endpoints は本番環境向けに最適化されており、公開・保護・プライベートの三段階のアクセス制御とスケールゼロ機能（トラフィックがゼロになると自動でスケールダウン）を備えていると説明されている。

今回の発表は、推論インフラの知識を持たない開発者がエンドポイントを素早く立ち上げて実験や評価を始められる、という入り口を新たに整えたものといえる。セキュリティ面では、エンドポイントへのアクセスはユーザーおよび組織の単位でゲートされ、すべてのリクエストに HuggingFace トークンが必要な設計になっている。