- Gemini 3.5 FlashにComputer Useがネイティブ統合、ブラウザ・モバイル・デスクトップを自動操作するAIエージェントをGemini API経由で直接構築できるようになった
- プロンプトインジェクション対策として敵対的学習・自動停止・操作確認フローの多層防御を採用、企業導入に向けた安全設計が実装済み
- OSWorldベンチマークで継続的な性能改善を記録しており、ソフトウェアテストや業務フロー自動化への実用化が本格化している
Computer Useとは何か
コンピューター使用(Computer Use)は、AIモデルがウェブブラウザやデスクトップ画面をスクリーンショットとして「見て」、マウスクリックやキー入力などの操作を通じてコンピューターを自律的に扱う技術です。人間がPCを操作するのと同じインタフェースを用いるため、専用のAPIや個別の連携設定なしに既存のあらゆるソフトウェアを自動化の対象にできます。
2024年にAnthropicがClaude向けにComputer Useを発表して以降、主要AI企業が同様の機能開発を競っています。Googleは2025年6月、Gemini 3.5 FlashにComputer Useをネイティブ統合し、Gemini APIおよびGemini Enterprise Agent Platformを通じて開発者と企業が直接利用できる形で公開しました。
3つの動作環境に対応
Gemini 3.5 FlashのComputer Useは、ブラウザ・モバイル・デスクトップの3種類の環境でエージェントを構築できます。ウェブアプリケーションの操作から、スマートフォン画面のシミュレーション、従来のデスクトップアプリケーションの制御まで幅広くカバーしています。
Googleは開発者向けにGitHubのリファレンス実装とデモ環境を提供しており、Gemini APIにアクセスできるアカウントがあれば比較的少ないコードでエージェントの構築を始められます。企業向けにはGemini Enterprise Agent Platformからも利用可能で、既存の業務システムとの連携を想定した設計になっています。

プロンプトインジェクション対策
Computer Useの実用化における最大の課題のひとつが、プロンプトインジェクション攻撃への対処です。これは、AIエージェントが操作するウェブページや文書に悪意ある指示を埋め込み、エージェントを意図しない動作に誘導する攻撃手法です。
Googleは多層防御アプローチでこの問題に対処しています。不正なインジェクションパターンを学習させる敵対的学習によってモデル自体の耐性を高めるとともに、危険な操作が検出された際にエージェントを自動停止する機能を実装しています。さらに、重要な操作前にユーザーの明示的な確認を求める「ヒューマン・イン・ザ・ループ」フローを組み込んでおり、不意のデータ送信やファイル削除といった取り消し困難な操作に対する安全弁として機能します。
インフラ設計レベルでは、エージェントをサンドボックス環境で実行すること、アクセス権限を最小限に絞ること(最小権限原則)もあわせて推奨しています。AIエージェントが人間の代わりにコンピューターを操作する以上、情報漏洩や誤操作のリスクは従来のソフトウェア以上に厳密な管理が求められます。
ベンチマーク性能と活用事例
GoogleはOSWorldベンチマークにおける性能改善グラフを公開しています。OSWorldはデスクトップOSの複雑なタスク実行能力を評価する業界標準のベンチマークで、継続的な精度向上が確認されているとしています。
主な活用が期待される分野は継続的なソフトウェアテストと業務フロー自動化です。ウェブアプリケーションのリグレッションテストを人手を介さずに繰り返し実行したり、基幹業務システムへのデータ入力や照合作業を自動化したりするユースケースが代表例として挙げられています。特に既存システムのAPIが整備されていないレガシーアプリケーションに対しても、画面操作ベースのアプローチで自動化を実現できる点が実用的なメリットです。
AIエージェントが環境を認識しながら行動を計画・実行するアーキテクチャについては、Qwen-AgentWorldの解説記事もあわせて参照してください。LLMを環境シミュレーターとして活用する設計思想はComputer Useと共通する部分があり、エージェント開発の背景理解に役立ちます。
競合との位置づけ
AnthropicはClaude 3.5 SonnetでComputer Useをいち早く製品化し、多くの企業パートナーと連携した実績があります。Gemini 3.5 FlashへのComputer Use統合は、この領域でGoogleが本格的な競争に参入することを意味します。
Gemini 3.5 Flashは推論速度と低コストに強みを持つモデルであり、大量のスクリーンショット処理を伴うComputer Useタスクとの相性は良好と見られます。Googleはエンタープライズ向けプラットフォームとの統合も前面に押し出しており、既存のGoogle WorkspaceやGoogle Cloud環境との連携を軸にした企業導入シナリオを描いています。
AIエージェントは、テキスト生成や画像認識といった従来のAI機能から一歩進んで、デジタル業務そのものを自動化する領域へとAIの適用範囲を広げています。セキュリティと信頼性の確保を前提として、この技術が企業の日常業務にどこまで組み込まれていくかが今後の焦点となります。
