OpenSeeker-v2とは？SFTのみで産業界のRL学習パイプラインを超えた検索エージェント

わずか10,606件のSFTデータのみでBrowseComp 46.0%・Humanity's Last Exam 34.6%・xbench 78.0%の4ベンチマーク同時SoTAを達成
CPT+SFT+RLの重厚な学習パイプラインを使うTongyi DeepResearchを全4指標で上回り、「データ品質こそが鍵」であることを実証
30Bパラメータ（MoE・推論時3B活性化）のモデル重みをHuggingFaceでオープンソース公開、純粋学術チームによる初のフロンティア級成果

研究の背景

ウェブ検索を繰り返しながら複雑な問いに答える「深層検索（Deep Search）」能力は、フロンティアLLMエージェントにとって必要不可欠なスキルになりつつあります。しかしその開発は、OpenAIやAnthropicなど潤沢なリソースを持つ企業が事実上独占してきました。

典型的な産業パイプラインは、大規模コーパスを用いた継続事前学習（CPT：Continual Pre-Training）から始まり、教師あり微調整（SFT：Supervised Fine-Tuning）、そして強化学習（RL：Reinforcement Learning）まで続く重厚な多段階構成です。Alibaba Tongyi LabのTongyi DeepResearchはその代表例であり、CPT+SFT+RLすべてを経て訓練されています。こうした複雑なパイプラインは莫大な計算リソースと独自データを前提とするため、学術コミュニティや小規模チームにとって大きな参入障壁となっていました。

上海交通大学のチームはこの状況に疑問を呈し、「訓練データの質を極限まで高めれば、SFT単体で産業界の重厚なパイプラインに匹敵できるのか」という問いに正面から取り組みました。その成果がOpenSeeker-v2です。

OpenSeeker-v1との違い

前身となるOpenSeeker-v1（2026年3月発表）は、SFT単体の枠組みで訓練データの完全オープンソース化を実現した先駆的な取り組みでした。v1はBrowseComp 29.5%、BrowseComp-ZH 48.4%、xbench 74.0%を達成しましたが、産業界のRLベースモデルとの差は依然として大きい状態でした。

v2が採用した根本的な改善の方向性は、データ件数を増やすことではなく「各データの難易度と情報密度を上げること」です。実際、v2の訓練データ件数はv1の11,700件より少ない10,606件ですが、1軌跡あたりの平均ツール呼び出し回数は64.67回と、v1の46.97回、比較対象のRedSearcherの36.01回を大幅に上回っています。より長く複雑な推論が求められるデータで訓練することが、性能向上の主因です。

図1: 各訓練データセットの平均ツール呼び出し回数の比較。OpenSeeker-v2のデータが最も長い推論軌跡を持ち、難易度の高さを示している

3つのデータ合成改善

OpenSeeker-v2のデータ合成パイプラインに加えられた改良は、以下の3点です。

知識グラフの拡張：タスク生成の基盤となるトポロジカルグラフの拡張幅（バジェットK）を引き上げ、関連する情報源の数と多様性を増加させた。複数の情報ノードを横断して初めて解けるマルチホップ型の質問が生成されやすくなる
ツールセットの拡充：エージェントが利用できるツールの種類をv1より増やすことで、多様な検索戦略と問題解決パターンを学習させる
ステップ数フィルタリング：ツール呼び出し数が閾値Tmin未満の軌跡（直接検索で解けてしまう簡単な問題）を訓練セットから除外し、難易度の下限を保証する

これら3点を組み合わせることで、合計10,606件の高難度・高情報量データセットを構築しました。件数自体は少ないものの、1軌跡あたりの推論の深さと情報の多様性が大幅に向上しています。

ベースモデルと学習設定

OpenSeeker-v2のベースモデルにはQwen3-30B-A3B-Thinking-2507を採用しています。これはMoE（Mixture-of-Experts：入力に応じて異なる専門家モジュールを選択的に活性化する仕組み）アーキテクチャを持つモデルで、パラメータ総数は30Bですが推論時に実際に活性化されるのは3Bのみです。「30B-A3B」という表記は「Total 30B、Activated 3B」を意味しており、大規模モデルの表現力を持ちながら推論コストを抑えられる点が特徴です。

コンテキストウィンドウは256Kトークン、1軌跡あたり最大200回のツール呼び出しを許容します。追加のRLや特別なハイパーパラメータ調整は一切行わず、標準的なSFT目的関数のみで訓練されています。論文には具体的なGPU台数や学習時間の詳細な記載はないものの、学術チームが扱える計算規模の範囲で完結させた点が一貫して強調されています。

実験結果

4つの代表的なエージェントベンチマークで評価した結果、OpenSeeker-v2-30B-SFTは同規模（約30B）のReActベース検索エージェントの中で最高性能を記録しました。

Tongyi DeepResearch（CPT+SFT+RL）との比較では、BrowseComp 46.0% vs 43.4%、BrowseComp-ZH 58.1% vs 46.7%、Humanity's Last Exam 34.6% vs 32.9%、xbench 78.0% vs 75.0%と、全4指標でOpenSeeker-v2が上回りました。特にBrowseComp-ZHでは11.4ポイントもの差がついています。

図2: OpenSeeker-v2と各モデルの4ベンチマーク比較。SFTのみでTongyi DeepResearch（CPT+SFT+RL）を上回る成果を全指標で示している

さらに、より大規模なモデルとの比較においても、DeepSeek-V3.1-671B（30.0%）、GLM-4.6-357B（45.1%）、Minimax-M2-230B（44.0%）、Claude-4.5-Sonnet（24.1%）をBrowseComp指標で超えており、30B規模でのデータ品質向上の効果が顕著です。一方でGPT-5-High（54.9%）やDeepSeek-V3.2-671B（51.4%）といった最上位クラスのモデルとはまだ差があり、限界も明確になっています。

また、RLHFやGRPOといったアライメント技術が検索エージェントの必須要素として語られる流れが続く中、本研究はSFTのみでフロンティア性能に到達できるという逆説的な知見を提供しており、学習パイプライン設計の議論に新たな視点を加えています。

まとめと今後の展望

OpenSeeker-v2は、上海交通大学の純粋な学術チームによって、SFT単体でフロンティア級の検索エージェント性能を達成した初のオープンソースモデルです。モデル重みはHuggingFace（PolarSeeker/OpenSeeker-v2-30B-SFT）で公開されており、学術コミュニティが再現・改良できる環境が整っています。

著者らは高品質な合成データのスケールアップにはまだ余地があると見ており、今後はデータ量・品質・多様性のさらなる拡充を通じて検索エージェントの性能向上を目指す方針を示しています。限られたリソースで研究を進める研究者にとって、「データの難易度と情報密度を上げれば、RLなしでも十分強い」という本研究の知見は実践的な指針となるでしょう。

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

Abstract page for arXiv paper 2605.04036: OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

arxiv.org

わずか10,606件のSFTデータのみでBrowseComp 46.0%・Humanity's Last Exam 34.6%・xbench 78.0%の4ベンチマーク同時SoTAを達成
CPT+SFT+RLの重厚な学習パイプラインを使うTongyi DeepResearchを全4指標で上回り、「データ品質こそが鍵」であることを実証
30Bパラメータ（MoE・推論時3B活性化）のモデル重みをHuggingFaceでオープンソース公開、純粋学術チームによる初のフロンティア級成果

研究の背景

OpenSeeker-v1との違い

3つのデータ合成改善

OpenSeeker-v2のデータ合成パイプラインに加えられた改良は、以下の3点です。

知識グラフの拡張：タスク生成の基盤となるトポロジカルグラフの拡張幅（バジェットK）を引き上げ、関連する情報源の数と多様性を増加させた。複数の情報ノードを横断して初めて解けるマルチホップ型の質問が生成されやすくなる
ツールセットの拡充：エージェントが利用できるツールの種類をv1より増やすことで、多様な検索戦略と問題解決パターンを学習させる
ステップ数フィルタリング：ツール呼び出し数が閾値Tmin未満の軌跡（直接検索で解けてしまう簡単な問題）を訓練セットから除外し、難易度の下限を保証する