- タスク固有の教師データを使わず、ドキュメントやウェブから検証信号を自己生成してスキルを習得する完全無監督フレームワーク
- SkillsBenchでClaude Opus 4.6が43.6%のパス率を達成し、最強ベースライン比で8.9ポイント上回る
- 仮想タスク検証器と診断リトリーバーの連携により、バグと知識ギャップを自律的に修正するサンドボックス進化ループを実現
研究の背景
LLMエージェントを実環境に展開した後、パフォーマンスを継続的に改善するには何が必要でしょうか。従来の自己進化研究の多くは、成功した軌跡のデータや正解ラベル付きの検証器、あるいはLLMが手動で整理したスキルライブラリを前提としており、実世界の新タスクに自然に適用できるとは限りません。
これに対してOpenSkillは、タスクのプロンプトだけを入力として受け取り、外部のドキュメント・リポジトリ・ウェブから知識と検証アンカーを自己収集してスキルを構築します。教師データも人手のラベリングも必要とせず、完全無監督でエージェントが成長できる点が従来手法との明確な違いです。

フレームワークの3段階構成
OpenSkillは3つの段階で動作します。オープンワールド知識の取得では、タスク指示を受け取った深層調査エージェントがウェブ検索を実行し、APIドキュメント・ベストプラクティス・サンプルコードを収集します。同時に、公開データセットの統計や期待される出力形式など、タスクの正解を見ずに独立して検証できる「検証アンカー」も取得します。
次のスキル合成・洗練の段階では、スキルプランナーが1〜4個のスキルモジュールを設計し、サンドボックス上で実行・評価・修正を繰り返します。最後のゼロショット評価では、構築されたスキルをターゲットタスクに適用します。スキルはモデルに依存しない成果物として設計されているため、異なるモデルへの転移も追加の適応なしで行えます。

4つの中核メカニズム
スキルプランナーは収集した知識を参照し、タスクを1〜4個の機能単位に分解してスキルの設計図を作成します。単一の巨大関数ではなくモジュール構造にすることで、個別の修正と再利用が容易になります。
仮想タスク検証器(Virtual-Task Verifier)は、収集した検証アンカーをもとにプロキシテストを自動生成し、決定論的なアサーション(条件チェック)でスキルを評価します。このとき、ターゲットタスクの正解データは一切参照しません。
実験で測定された検証精度は、パスと判定したケースのうち実際にパスした割合(適合率)が56.9%、実際にパスしたケースを正しく検出した割合(再現率)が80.5%でした。また、生成された仮想テストがカバーする意図の割合(テストインテントカバー率)は88.9%に達しており、正解データなしでも評価の大部分を代替できることが示されています。
診断リトリーバーはスキルの失敗原因を「実装のバグ」か「知識不足」かに自動分類します。知識不足と判定した場合は追加のウェブ検索を実行して情報を補完し、最大3回まで改善ループを回します。
リークバリアは、ターゲットタスクの正解や正解テストが構築プロセスに混入しないよう技術的に遮断します。これにより最終評価の公正性が保たれます。
実験結果
論文では3つのベンチマーク・2種類のエージェントでOpenSkillを評価しました。ソフトウェア・オフィスアプリ・科学分析など11ドメインを含むSkillsBenchでは、Claude Opus 4.6でパス率43.6%を達成し、最強ベースラインの34.7%を8.9ポイント上回りました。GPT-4でも42.1%(ベースライン33.3%、+8.8ポイント)と一貫した改善が確認されました。
スキルの転移実験では、Opus 4.6が生成したスキルを他のモデルにそのまま適用した場合にも、高い報酬を維持できることが示されました。MLEvolveなど既存の自己進化フレームワークが成功軌跡や教師信号を必要とするのに対し、OpenSkillは完全無監督で同等以上の性能を達成しています。

アブレーション分析
SocialMazeベンチマークでの各コンポーネントの寄与を測定した結果、オープンワールド検索(診断リトリーバー)単独で+6.1ポイント、仮想検証器単独で+6.3ポイントの性能向上が確認されました。両者を組み合わせるとさらに+2.1ポイントの追加利得が得られ、相補的に機能していることが示されています。
改善の反復回数については、3回程度でピークを迎えた後、10回まで増やすと過学習によって性能が低下することが判明しました。仮想フィードバックへの過度な最適化が逆効果になるという知見であり、反復回数の制御が実用上の重要なパラメータとなります。

まとめと課題
OpenSkillは、教師データも成功軌跡も必要とせずLLMエージェントがスキルを自己構築できることを示した研究です。3つのベンチマーク全体で最高パス率を達成し、スキルのモデル間転移も実証しました。GitHubでコードが公開されており、再現や応用が比較的容易です。
課題としては、仮想タスク検証器の適合率が56.9%にとどまる点が挙げられます。パスと判定したケースの約4割が実際には失敗を含む可能性を意味しており、精度向上が今後の研究テーマです。また、反復回数が増えると過学習が起きる問題も、長期的な自律進化を実現する上での実用的な課題として残っています。
