Agents-A1とは？35Bモデルで1兆パラメータ超の性能を達成するエージェント水平スケーリング

35BパラメータのMoEモデルが平均45Kトークンの長期軌跡を通じた水平スケーリングで、Kimi-K2.6やDeepSeek-V4-proを複数ベンチマークで超えた
知識行動グラフ（KAG）を基盤に6ドメインのマルチ教師蒸留と顕著語彙整合（SVA）で、異種推論パターンを1つのモデルに統合することに成功
HuggingFaceとGitHubでコードと訓練データを公開済みで再現性が高く、パラメータ効率を重視したLLM開発の新指針として注目されている

研究の背景

大規模言語モデル（LLM）の性能を引き上げる手段として、これまではパラメータ数の増大が主流でした。しかし数千億から1兆を超えるパラメータを持つモデルの訓練・推論には莫大な計算コストがかかります。Agents-A1はこの流れに疑問を呈し、「パラメータを増やすのではなく、エージェントが扱う軌跡（行動と観察の系列）を長くする」という水平スケーリングの方向性を探った研究です。

35BパラメータのMoE（混合専門家）モデルが平均45Kトークンという長い軌跡を通じて学習することで、Kimi-K2.6（約6,000億パラメータ）やDeepSeek-V4-pro（約6,700億パラメータ）に匹敵またはそれを超える性能を目指しています。コストを抑えながら高い能力を得るという効率重視の観点が、この研究の核心です。

知識・行動基盤の構築

Agents-A1の特徴の1つが、知識行動グラフ（KAG：Knowledge-Action Graph）と呼ばれる学習基盤です。KAGは異種コーパスを「原子能力」と呼ばれる最小単位に分解し、証拠・行動・観察・検証結果という4種類のノードを持つグラフ構造で管理します。

このグラフをもとに、「提案者・解法者・検証者」の3者がゲーム形式でやり取りするツール強化セルフプレイループを回すことで、ドメイン特化のサブグラフへ拡張されます。単純な一発生成よりも品質の高い学習軌跡を大量に得られる仕組みで、後続の長期タスク学習を支える土台となっています。

図1: KAGインフラの全体像。コーパスから原子能力を抽出してグラフを構築し、ツール強化セルフプレイでドメイン別サブグラフへ展開する流れ

3段階の訓練パイプライン

訓練は3つのフェーズで進められます。第1フェーズでは約100Kの長期軌跡を用いた全ドメイン教師あり学習（SFT：Supervised Fine-Tuning）を行い、検索・科学推論・コーディング・命令追従など幅広い能力の土台を作ります。損失は応答トークンにのみ適用し、プロンプトへの過剰適合を防ぐ工夫がなされています。

第2フェーズでは、6つのドメインそれぞれに特化した教師モデルを別途訓練します。ドメインの性質に応じてSFT（教師あり微調整）またはGRPO（強化学習の一種）が使い分けられており、例えば探索ドメインはSFTと強化学習の組み合わせ、命令追従ドメインは2段階の強化学習が採用されています。

第3フェーズが最も独自性の高いマルチ教師オンポリシー蒸留です。複数の教師モデルが持つ推論パターンは互いに干渉しやすいため、各サンプルを対応ドメインの教師のみからの監督に限定するハードルーティングと、ドメイン間でバランスよく損失を計算するドメイン正規化を組み合わせています。さらに顕著語彙整合（SVA：Salient Vocabulary Alignment）で教師と生徒の確率分布のズレを補正することで、蒸留の精度を高めています。オンポリシー蒸留を別アーキテクチャで検討した研究と同様に、異なるタスクを1つのモデルに統合する際の干渉軽減が核心的な課題となっています。

図2: 3段階訓練パイプラインの概要。全ドメインSFT、ドメイン特化教師訓練、マルチ教師オンポリシー蒸留の順に進む

ベンチマーク性能

6つのベンチマークで1兆パラメータ級モデルと比較した結果、Agents-A1は複数の指標で優位を示しました。SEAL-0では56.4（Kimi-K2.6は50.5）、命令追従ベンチマークのIFBenchでは80.6（Kimi-K2.6は71.8）、科学問題のFrontierScience-Olympiadでは79.0（Kimi-K2.6は73.0）をそれぞれ記録しています。

一方、機械学習エンジニアリングタスクのMLE-Benchでは43.9にとどまり、GPT-5.5（72.7）には届きませんでした。論文はこの差を「ドメイン特化教師が持つ専門性を統合ポリシーが完全には再現できない」という本質的な限界として率直に認めています。

長期タスクの実例

論文が示す具体例の1つが、ICML 2013のクジラ鳴き声検出チャレンジへの12時間連続取り組みです。Agents-A1は検証AUCを0.58から0.9935まで改善し、その過程でハイパーパラメータ調整にとどまらず、アルゴリズム設計レベルの改善を自律的に行ったことが確認されています。

また2008年のサイクロン・ナルギスの軌跡・強度・移動特性の分析も実例として示されています。衛星観測データからBest-trackマップや風速の時系列を出力するなど、複数ツールを連携させた長期的な科学解析タスクへの対応能力を示す事例です。

図4: ICML 2013クジラチャレンジにおける12時間の最適化軌跡。検証AUCが0.58から0.9935へ段階的に改善された様子

まとめと今後の展望

Agents-A1は「モデルを大きくする」のではなく「エージェントが扱う時間軸を伸ばす」という水平スケーリングの有効性を35Bスケールで実証しました。命令追従や科学推論の分野では1兆パラメータ超のモデルをしのぐ性能を示しており、コスト効率を重視するLLM開発の参考として価値があります。

課題も明確です。ドメイン特化教師の専門性を1つのモデルに完全に移転することは依然として難しく、複雑な工学タスクでの安定性も改善の余地があります。水平スケーリングの効果がどの程度まで続くかについては、さらなる検証が必要でしょう。HuggingFaceとGitHubでコードと訓練データが公開されているため、コミュニティによる追試と改良が今後の発展を後押しすると期待されます。