- スクウェア・エニックスがドラゴンクエストXオンラインにGemini 3 FlashとLive APIを組み合わせた音声対話NPCを実装
- 意図認識・エージェントルーティング・データ参照・音声生成の4段階マルチエージェント構成でゲーム文脈に応じた会話を実現
- 会話データはプレイヤー個人に帰属し、他アカウントへの共有やモデル学習への転用は行わないと明示
「おしゃべりスラミィ」とは
スクウェア・エニックスは2026年3月、MMORPG(大規模多人数参加型オンラインRPG)「ドラゴンクエストX オンライン」にGoogleの生成AIモデル「Gemini 3 Flash」を搭載した音声対話キャラクター「おしゃべりスラミィ」を導入した。ドラゴンクエストシリーズでおなじみのモンスター「スライム」をベースにしたNPCで、プレイヤーはリアルタイムの音声会話でゲームのサポートを受けられる。
「お気に入りの場所はどこ?」といった問いかけに対し、キャラクターがゲーム世界の設定を踏まえて返答するなど、単なる情報案内を超えた会話体験を提供する。スライムというキャラクター性を維持しながら、プレイヤーの状況に応じた文脈対応が可能な点が、従来の定型応答型NPCと根本的に異なる。
Gemini 3 FlashとLive APIの組み合わせ
技術の中心は、GoogleのGemini 3 FlashモデルとGemini Live APIを組み合わせたリアルタイム音声処理にある。Live APIはプレイヤーの行動をマルチモーダルで処理し、AIがゲームの状態をリアルタイムに認識できる仕組みを提供している。Google Cloud担当者によれば、「Live APIがプレイヤーの行動を処理することで、AIがマルチモーダルなインタラクションを通じてゲーム状態を認識できる」という。
Gemini 3 Flashは推論速度と精度のバランスに優れたモデルで、ゲームのような低レイテンシが求められるリアルタイムインタラクションに適している。音声入出力を含む一連の処理をプレイヤーが不自然さを感じないスピードで完結させられることが、エンターテインメント用途での採用理由の一つと考えられる。
4段階マルチエージェント構成の仕組み

おしゃべりスラミィのバックエンドは、4段階のマルチエージェントアーキテクチャで構成されている。第1段階の「意図認識」でプレイヤーの発言内容をゲーム文脈に基づいて分類し、第2段階の「エージェントルーティング」で適切な専門エージェントへ振り分ける。続く第3段階「データ参照」では、ドラゴンクエストXのゲームデータベースにアクセスし、プレイヤーのクエスト進捗や装備情報を取得した上で回答を生成する。
最後の第4段階「音声生成」でキャラクターらしい音声出力を行う。この構成により、「次にどのクエストを進めるべきか」といった進行に関する具体的な質問にも、プレイヤー個人の状況に応じた回答が可能になっている。また、会話の蓄積を通じてプレイヤーの好みやプレイスタイルを段階的に学習し、応答の質を高める仕組みも備えている。
単一モデルで全処理を担う構成ではなく、役割を分担した複数のエージェントを協調させる方式は、複雑なユーザー意図に対応しやすく、精度と拡張性の両立が期待できる。エージェントAIの実用化はゲーム分野でも着実に進んでおり、こうしたアーキテクチャはコンシューマー向けサービス全般への応用が見込まれる。
プライバシー保護の設計方針
スクウェア・エニックスはプレイヤーのプライバシーに配慮した設計方針も明確にしている。おしゃべりスラミィとの会話データはプレイヤー個人に帰属し、他のアカウントへの共有やAIモデルの追加学習への転用は行わないとしている。ゲーム内のプレイヤー情報を扱う以上、データの取り扱いに関する透明性は重要な要件であり、この方針を公式に明言したことは、業界標準を考える上でも一つの参照点になりうる。
ゲームへのAI実装が示すもの
国民的RPGシリーズとして長年親しまれてきたドラゴンクエストのオンライン版で生成AIが本格実装されたことは、AI技術のゲーム・エンターテインメント分野への浸透を示す具体的な事例といえる。既存の定型チャットボットとは異なり、ゲームのワールド設定やプレイヤーの進行状況と統合された形での対話体験は、プレイヤーエンゲージメントの向上に直結する可能性がある。
Gemini Live APIとマルチエージェント構成を組み合わせた実装パターンは、ゲーム以外のインタラクティブなコンシューマー向けサービスにも応用できるアーキテクチャであり、開発者にとって実践的な参照事例となりうる。音声対話AIキャラクターの本格実用化という観点で、今後の類似事例が増加するかが注目される。

