AI Co-Mathematicianとは？数学研究を支援するマルチエージェントの仕組みと成果

Google DeepMindが開発した数学研究支援エージェント「AI Co-Mathematician」がFrontierMath Tier 4で全AIシステム中最高の48%を達成した
プロジェクトコーディネーターとワークストリームによる非同期階層型マルチエージェント構成で、仮説立案から定理証明まで数学研究の全工程を一貫支援する
現役数学者との協調実験で「1週間の思索を数時間に短縮」など実用的な成果が確認されており、AI for Scienceの新たな可能性を示した

研究の背景と課題

数学研究は、アイデアの着想から文献調査、計算探索、定理の証明、さらには理論体系の構築まで、多岐にわたる工程で構成されています。これまでのAI活用では、計算機代数システムや自動定理証明器のように特定の工程を個別に支援するツールが中心でした。しかし、数学者が実際に研究を進める場合、これらの工程は互いに絡み合い、試行錯誤を繰り返しながら進んでいきます。

Google DeepMindの18名のチームが発表した「AI Co-Mathematician」は、こうした開放的な数学研究プロセス全体を、AIが協調的なパートナーとして一貫支援することを目指したシステムです。自動定理証明器のように特定の問題を自律解決するのではなく、数学者の思考プロセスに寄り添い、研究の各段階で適切な支援を提供する点がこの研究の核心にあります。

エージェントの組織構造

図1: AI Co-Mathematicianのエージェント組織図。プロジェクトコーディネーターを頂点に、複数のワークストリームコーディネーターと専門エージェントが階層的に接続されている。

AI Co-Mathematicianは、非同期かつ状態を保持するワークスペースを基盤とした階層型マルチエージェントシステムで構成されます。最上位に「プロジェクトコーディネーター」が位置し、ユーザーとの対話を通じて研究課題を明確化する役割を担います。プロジェクトコーディネーターは研究目標を複数の「ワークストリーム」に分割し、それぞれのワークストリームコーディネーターへ委譲します。

各ワークストリームは文献検索、コード実装、論証生成など専門化されたサブエージェントを動的に生成して作業を進めます。さらに「レビュアーエージェント」が完成した報告書の論理性・参照の正確性・コードの妥当性を複数回検証し、品質を担保する仕組みになっています。各エージェントは共有ファイルシステムとメッセージング機構を介して非同期に協働するため、長時間にわたる探索も安定して継続できます。

研究の開始から完了までの流れ

図2: 初期探索フェーズにおけるユーザーとプロジェクトコーディネーターの対話。研究課題とプロジェクト目標が合意に至るまでのプロセスを示している。

研究の開始時には、ユーザーとプロジェクトコーディネーターが対話を重ね、研究課題と目標を明確化します。ここでユーザーの意図が精緻化され、以降の作業方針が固まります。

図3: 目標ごとに複数のワークストリームがスケジュールされ、進行中でも追加・変更が可能な構成を示した図。ワークストリームが失敗した場合は警告が表示される。

目標が定まると、プロジェクトコーディネーターは複数のワークストリームをスケジュールし、並列して作業を進めます。ユーザーは研究の途中でもいつでも指示を追加できるため、方針転換や新たな視点の追加が柔軟に行えます。各ワークストリームは完全な報告書に加え、作業途中の逐次レポートも提供するため、ユーザーは進捗を随時確認できます。

図4: 単一ワークストリームの動作例。文献検索とウェブ検索を経てレポートを更新し、最終的にレビューを通過して「完了」と判定されるまでの流れ。

個々のワークストリームの内部では、コーディネーターが文献検索、コード実行、論証の生成などを順次実行します。各行動の結果はリアルタイムで報告書に反映され、最終的にレビュアーエージェントの審査を通過した後に「完了」と判定されます。作業が何らかの理由で完了できない場合は、ユーザーへ向けて警告が表示されます。

FrontierMathでの評価結果

図5: Gemini 3.1 Pro、Gemini 3.1 Deep Think、AI Co-Mathematicianの3システムによるFrontierMath内部ベンチマークの正答率比較。AI Co-Mathematicianが48%で最高スコアを記録している。

AI Co-Mathematicianの性能は、研究数学の難問集であるFrontierMath（Tier 4）で評価されました。ベースモデルであるGemini 3.1 Proが19%であるのに対し、AI Co-Mathematicianは48%の正答率を達成し、評価されたすべてのAIシステムの中で最高スコアを記録しました。

また、AI Co-Mathematicianはこれまでいかなるシステムも解けなかった問題を新たに解いたケースがある一方で、他のシステムが解けた問題で失敗したケースも含まれています。このことは、既存の解法パターンとは異なる探索戦略をとっていることを示唆しています。また、AlphaEvolveのようなGeminiベースの専門システムとの将来的な統合も設計上考慮されており、自動定理証明エンジンを動的に組み込む拡張性を持っています。

数学者との協調実験

システムの実用性は、現役の数学者との協調実験でも確認されています。論文では3つのケーススタディが報告されており、それぞれ異なる数学的課題に取り組みました。

Lackenby教授（Kourovka問題）: AIが誤った証明案を提示したが、レビュアーエージェントがその欠陥を指摘し、補完方法の発見につながった
Bérczi教授（Stirling係数）: 詳細な背景説明をユーザーが与えることで、2つの予想に対する証明と計算的根拠を得た
Rezchikov教授（ハミルトン系補題）: 「1週間の思索を数時間に短縮できた」と述べ、得られた証明の美学的質も高く評価した

これらの事例が示すのは、AI Co-Mathematicianが計算を代行するだけでなく、数学者の思考を加速させる知的パートナーとして機能しているという点です。同時に、ユーザーが適切な背景知識や指針をシステムに提供することが、成果の質を大きく左右することも明らかになっています。

まとめ

AI Co-Mathematicianは、研究数学の開放的なプロセスを非同期マルチエージェントで一貫支援するという新たなアプローチを示しました。FrontierMath Tier 4での48%達成は、自動定理証明とは異なる方向でAIが数学研究に貢献できることを示す重要な実証結果です。

現時点ではプロトタイプの段階にあり、計算効率や長時間実行の安定性など解決すべき課題も残っています。しかし、数学者が「創造的なパートナー」としてAIを活用する時代に向けた具体的な一歩として、この研究は意義深い貢献をしています。形式化証明ツールや既存の特化型AIとの統合が進めば、その可能性はさらに広がるでしょう。

AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

Abstract page for arXiv paper 2605.06651: AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

arxiv.org

Google DeepMindが開発した数学研究支援エージェント「AI Co-Mathematician」がFrontierMath Tier 4で全AIシステム中最高の48%を達成した
プロジェクトコーディネーターとワークストリームによる非同期階層型マルチエージェント構成で、仮説立案から定理証明まで数学研究の全工程を一貫支援する
現役数学者との協調実験で「1週間の思索を数時間に短縮」など実用的な成果が確認されており、AI for Scienceの新たな可能性を示した