- 64人の数学者が一から設計した439問の研究レベル数学ベンチマーク「Soohak」で、最先端のGemini-3-Proでも30.4%、GPT-5は26.4%、Claude-Opus-4.5は10.4%止まり
- 不当な問題を識別して回答を拒否する能力を測る「Refusal Subset」を新設。いかなるモデルも50%を超えられない、現時点で未解決の評価軸を提示
- ChallengeとRefusalを合算した総合指標Avg-RではGPT-5が首位に浮上し、推論力が高くても拒否能力の差で順位が逆転する現象を確認
研究の背景
大規模言語モデル(LLM)の数学的推論能力は、この数年で急速に向上しました。国際数学オリンピック(IMO)の問題で金メダル相当の成績を収めるモデルが登場し、オリンピアードレベルのベンチマークは飽和状態に近づいています。
この状況を受けて提案されたのが「Soohak(수학)」です。韓国語で「数学」を意味するこのベンチマークは、大学院以上の研究者が取り組む研究レベルの問題を収録しており、IMO到達後の「次の壁」を目指して設計されています。AI Co-Mathematicianのような数学研究支援エージェントの研究と並んで、モデルの実際の数学研究能力を問う動きがここにきて加速しています。
データ収集の仕組み
Soohakの最大の特徴は、既存問題の流用ではなく64人の数学者が問題を一から作成した点にあります。収集パイプラインは5段階で構成されています。投稿者がオリジナリティと著作権に関する同意書にサインして問題を提出し、モデルを使った自動スクリーニングと類似問題チェックが行われます。続いて2名の人間レビュアーが手動で審査し、投稿者が最終公開に同意した上で収録が決まります。

このパイプラインを通過した最終問題数は439問です。分野別の内訳は代数・離散数学が最多で数論269件・組合せ論131件を含み、続いて解析学233件、幾何・位相数学175件と続きます。なお、AIが生成した問題を提出した投稿者はパイプラインから除外されており、問題の独自性確保に徹底した配慮がなされています。
2つのサブセット構成
Soohakは「Challenge」と「Refusal」という2種類のサブセットで構成されています。
Challengeサブセットは研究レベルの数学問題で、モデルが正しい答えを導けるかを問います。問題は整数で回答できる形式に統一されており、採点は最終回答の正誤で判断されます。
Refusal Subset(99問)はSoohakが新たに提案する評価軸です。このサブセットに含まれる問題は意図的に「不当な問題(ill-posed problems)」として設計されており、矛盾した条件、欠落した仮定、定義できない答えを含んでいます。モデルは正答を示すのではなく、問題の欠陥を指摘して回答を拒否することで正解と判定されます。数学研究において「この問題は成立しない」と見抜く能力は本質的に重要であり、Soohakはこれを初めて正式な評価項目として導入しています。
主要モデルの評価結果
評価には「Avg@3」と「Pass@3」の2種類の指標が使われています。Avg@3は同じ問題に3回チャレンジした際の平均正解率を指し、Pass@3は3回のうち少なくとも1回正解できた割合を示します。
Challengeサブセットで最も高いAvg@3を記録したのはGemini-3-Proの30.4%でした。GPT-5は26.4%、最強のオープンウェイトモデルであるKimi-2.5は13.9%にとどまり、Claude-Opus-4.5は10.4%です。オープンウェイトモデルはいずれも15%未満であり、最先端の商用モデルとの差が際立っています。

人間の数学者との比較では、5チーム25名が79問のサンプルに4.5時間で取り組みました。人間チームの合算カバレッジを上回ったのはGemini-3-Proのみであり、それ以外の全モデルは人間チームの集合的な解答範囲に届きませんでした。また、IMOの経験を持つ数学専攻チームが最強の単一チームとなっており、博士研究者よりもオリンピアード経験者が高得点を示す傾向が確認されています。
Refusal Subsetという新たな壁
Avg-Rは、ChallengeスコアとRefusalスコアを組み合わせた複合指標です。このAvg-Rでモデルを再順位付けすると、Challengeスコアだけとは異なる興味深い逆転現象が起きています。
Refusal Subsetでの最高スコアはGLM-5が記録した49.5%でした。しかしそれでも50%未満であり、いかなるモデルも「不当な問題を見抜く能力」で過半数を超えることができていません。GPT-5のRefusalスコアは43.1%と比較的高く、Avg-Rでは純粋な推論力でGemini-3-Proを上回っていたGPT-5がトップに浮上しています。

ChallengeスコアではGemini-3-Proが優位ですが、拒否能力を含めた総合力ではGPT-5が上回ります。推論能力だけで評価した場合と、拒否能力を含めた場合とで順位が大きく変わることは、ベンチマーク設計における重要な示唆を与えています。
スケーリングと未解決問題
Qwen3ファミリー(0.6B〜32Bパラメータ)を用いたスケーリング実験では、モデルサイズの増加とともにChallengeとRefusal双方のスコアが向上することが示されました。また、推論トークン数を16,384から81,920まで拡張するテストタイムスケーリングでも性能改善が確認されています。

右図が示すように、評価に参加した全モデルが解けていない問題が相当数残っており、スケーリングによって飽和する兆しはまだ見えていません。オリンピアードベンチマークとは異なる「天井のない評価軸」として、Soohakは今後のLLM研究の指針となりえます。
まとめと今後の展望
Soohakは、LLMの数学的推論能力評価において2つの重要な貢献をしています。一つは、64人の数学者が一から作成した研究レベルの高品質な問題セットの提供です。もう一つは、「不当な問題を見抜いて回答を拒否する能力」という、これまでのベンチマークが見落としてきた評価軸の導入です。
Refusal Subsetでいかなるモデルも50%を超えられていないという事実は、数学的推論の次の研究目標を明確に示しています。単に答えを出すだけでなく、問題の妥当性そのものを批判的に評価できるモデルの開発が、今後の重要な課題となるでしょう。
