- Alibaba X-PLUGが開発したGUIエージェント「GUI-Owl-1.5」がOSWorld 56.5%・AndroidWorld 71.6%・WebArena 48.4%など20以上のベンチマークでオープンソース最高性能を達成
- デスクトップ・モバイル・ブラウザの3プラットフォームに対応し、2B〜235Bの5サイズをオープンソース公開。実務への導入ハードルを大幅に低減
- プラットフォーム間の競合と長期タスクの学習困難に対処する新強化学習アルゴリズム「MRPO」を提案し、従来手法の限界を突破
研究の背景
パソコンやスマートフォン、Webブラウザを自律的に操作できるAIエージェント——いわゆるGUI(グラフィカルユーザーインターフェース)エージェント——への関心が急速に高まっています。ユーザーに代わってアプリを起動し、フォームを入力し、検索して結果をまとめる。そうした「実際の画面操作」をこなせるモデルは、業務自動化や障害支援など幅広い応用が期待されています。
しかし既存のGUIエージェントには大きな課題がありました。WindowsやmacOSのようなデスクトップ環境、AndroidやiOSのモバイル環境、そしてWebブラウザはそれぞれ操作体系が大きく異なります。単一のプラットフォームで高性能を達成しても、他の環境では性能が落ちるケースが多く、「汎用的に使えるオープンソースモデル」は存在しませんでした。
GUI-Owl-1.5とは
Alibaba X-PLUGが開発したGUI-Owl-1.5は、デスクトップ・モバイル・ブラウザの3プラットフォームをネイティブにサポートするマルチプラットフォームGUIエージェントです。モデルサイズは2B・4B・8B・32B・235Bの5種類が提供されており、小規模な端末への導入から大規模な業務システムへの組み込みまで、幅広いニーズに対応しています。

エージェントの動作フローはシステムメッセージ・ユーザーメッセージ・レスポンスメッセージの3層で構成されています。システムメッセージで利用可能なアクション空間を定義し、ユーザーメッセージにはタスク指示・圧縮された操作履歴・現在の画面観測が含まれます。エージェントは推論・行動サマリー・最終アクション出力を返す構造になっています。
3つの主要技術
GUI-Owl-1.5の高性能を支えるのは、互いに補完する3つの技術要素です。
1. ハイブリッドデータフライホイール:シミュレーション環境とクラウドベースのサンドボックスを組み合わせた独自のデータパイプラインです。UI理解のためのグラウンディングデータ(「どの要素をクリックすべきか」を学習させるデータ)と、実際の操作軌跡データを高品質かつ効率的に収集します。
2. 統一エージェント能力強化パイプライン:思考合成(Thinking Synthesis)によって推論能力を体系的に強化しつつ、ツール使用やMCP(Model Context Protocol)連携・メモリ管理・マルチエージェント協調といった実用機能を統一的なパイプラインで訓練します。
3. MRPO(Multi-Platform Reinforcement Policy Optimization):本研究の核となる新しい強化学習アルゴリズムです。複数プラットフォームをまたいで訓練する際に生じる「競合問題」——あるプラットフォームの学習が別のプラットフォームの性能を下げてしまう現象——と、長期タスクにおける報酬がスパース(まばら)になることで学習が進みにくい問題の2点を同時に解決します。

実験結果
GUI-Owl-1.5は、OSWorld(PC操作)56.5%・AndroidWorld(Android操作)71.6%・WebArena(ブラウザ操作)48.4%という数値を達成し、いずれもオープンソースモデルとして最高性能を記録しました。GUI要素の位置を当てる「グラウンディングタスク」でもScreenSpotProで80.3%、GUI知識を問うベンチマークGUI-Knowledge Benchでは75.5%と、幅広い能力で高水準を示しています。

アブレーション実験(各要素を外して性能を確認する実験)では、MRPOのマルチプラットフォーム学習戦略とタスク選択の両要素が性能向上に不可欠であることが確認されました。どちらか一方を取り除いても性能が有意に低下し、2つの組み合わせが重要であることが示されています。
実際の動作デモとして論文中では、Androidでソーシャルメディアを横断して情報収集・要約するタスクや、Windowsで画面上の重要情報を記憶しながら操作を続けるタスクなど、複雑な長期操作シナリオが紹介されています。AIエージェントフレームワーク全体の動向と合わせて参照すると、GUI-Owl-1.5がどのような位置づけのモデルかをより深く理解できます。
まとめと今後の展望
GUI-Owl-1.5は、プラットフォームの壁を越えて実用レベルのGUI操作ができるオープンソースモデルとして大きな一歩を踏み出しました。2Bから235Bまでの5サイズが公開されており、個人開発者から企業の研究チームまで、誰でも実験・応用できる点は特筆に値します。
一方で、現時点では対応言語・対応アプリケーションの種類に限界があり、予期しない画面変化への対応も課題として残ります。また、強化学習によるさらなる性能向上の余地もあり、今後のバージョンアップが期待されます。実際のGUI環境で自律的に動作するAIエージェントの実用化に向けて、GUI-Owl-1.5は重要な基盤となるモデルです。
