- OpenAIの内部モデルが全10問に挑戦し、専門家評価で問題4・5・6・9・10の5問が正解の可能性ありと判定された
- 問題の一部は第一線専門家でも解くまでに数年を要した研究グレードの未解決問題であり、端から端までの形式的証明が求められる
- 連続数時間の思考を維持しながら厳密な結論を導く新モデルを訓練中で、IMO金メダル相当の成果に続くAI数学推論の新たなマイルストーンとなった
First Proofとは何か
First Proofは、AIシステムが数学的問題に対して正確で検証可能な証明を生成できるかを試す研究者向けコンペティションだ。各問題の作成者は当該分野の第一線専門家であり、中には解答が見つかるまでに数年を要した未解決問題も含まれる。コンペの特徴は、短答形式ではなく始めから終わりまで一貫した論理的証明を要求する点にある。
従来のAI数学ベンチマーク(AMCやAIMEなど)と異なり、First Proofでは専門家のレビューなしに正誤を判定することが難しく、失敗のパターンそのものが研究上の知見となる。「フロンティアチャレンジ」として位置付けられる理由は、この評価の困難さと問題の質の高さにある。
OpenAIの挑戦:10問すべてへの取り組みと評価
OpenAIは2026年2月14日(米国時間)の午前0時に、内部モデルによる証明試みを公開した。モデルは全10問に取り組み、専門家のフィードバックをもとに問題4・5・6・9・10の5問で正解の可能性が高いと判断されている。一方、当初は正解と見込んでいた問題2については、First Proof公式解説とコミュニティの分析により、現在は不正解と考えられている。
OpenAIの研究者ジェームズ・R・リーは訓練の経過を次のように述べている。「まず問題9と10が解けた。訓練が進むにつれて問題6、そして2日後に問題4が解けるようになった。モデルが日に日に賢くなるのを目の当たりにするのは圧倒的な体験だった」。この記述は、訓練中のモデルの学習曲線が急峻であることを示している。
モデルの技術的アプローチ
今回使用された内部モデルは、思考の厳密性を高めることを主要目標として現在も訓練が続いている。連続して数時間思考を持続しながら高い確信度で結論を導けることを目指すもので、推論モデルが陥りがちな過剰思考の問題を抑制しつつ、論証の検証性を高める設計が施されている。
人間による監督は最小限に抑えられたが、有望に見えた戦略を再試行するよう促す場面もあった。また専門家のフィードバックを受けて一部の証明をモデルに展開・明確化させ、検証しやすい形式へと整えた。証明の検証と整形にはChatGPTも活用し、内部モデルとの往復ワークフローでフォーマットと論理的一貫性の両面を確保している。プロンプトのパターンと例は付録として論文に追記されている。
AI数学研究の到達点と今後の展望
First Proofへの挑戦は一連の数学・科学成果の延長線上にある。2025年7月には国際数学オリンピック(IMO)で汎用推論モデルが35点/42点という金メダル相当のスコアを達成した。同年11月にはGPT-5を活用した科学加速の事例集が公開され、直近ではGPT-5.2が理論物理学のグルーオン振幅公式の候補式を提案し、内部モデルがそれを形式的に証明する成果も生まれている。
OpenAIはFirst Proof主催者と今後のより厳密な実験・評価フレームワークの設計について協議する方針を示している。ベンチマークでは捉えにくい「長い推論の持続」「適切な抽象化の選択」「問題文のあいまいさへの対処」「専門家の精査に耐える論証の生成」こそが研究グレードAIの本質的能力だという認識が、今回の取り組みの背景にある。数学的発見の自動化は将来のビジョンではなく、現在進行形の現実として立ち現れつつある。