Soohakとは？64人の数学者が作る研究レベル数学ベンチマークでGPT-5も26%止まり

64人の数学者が一から設計した439問の研究レベル数学ベンチマーク「Soohak」で、最先端のGemini-3-Proでも30.4%、GPT-5は26.4%、Claude-Opus-4.5は10.4%止まり
不当な問題を識別して回答を拒否する能力を測る「Refusal Subset」を新設。いかなるモデルも50%を超えられない、現時点で未解決の評価軸を提示
ChallengeとRefusalを合算した総合指標Avg-RではGPT-5が首位に浮上し、推論力が高くても拒否能力の差で順位が逆転する現象を確認

研究の背景

大規模言語モデル（LLM）の数学的推論能力は、この数年で急速に向上しました。国際数学オリンピック（IMO）の問題で金メダル相当の成績を収めるモデルが登場し、オリンピアードレベルのベンチマークは飽和状態に近づいています。

この状況を受けて提案されたのが「Soohak（수학）」です。韓国語で「数学」を意味するこのベンチマークは、大学院以上の研究者が取り組む研究レベルの問題を収録しており、IMO到達後の「次の壁」を目指して設計されています。AI Co-Mathematicianのような数学研究支援エージェントの研究と並んで、モデルの実際の数学研究能力を問う動きがここにきて加速しています。

データ収集の仕組み

Soohakの最大の特徴は、既存問題の流用ではなく64人の数学者が問題を一から作成した点にあります。収集パイプラインは5段階で構成されています。投稿者がオリジナリティと著作権に関する同意書にサインして問題を提出し、モデルを使った自動スクリーニングと類似問題チェックが行われます。続いて2名の人間レビュアーが手動で審査し、投稿者が最終公開に同意した上で収録が決まります。

図1: Soohakの問題収集パイプライン。投稿から自動スクリーニング、2名による人間レビュー、投稿者のオプトイン、最終収録まで5段階で管理されている

このパイプラインを通過した最終問題数は439問です。分野別の内訳は代数・離散数学が最多で数論269件・組合せ論131件を含み、続いて解析学233件、幾何・位相数学175件と続きます。なお、AIが生成した問題を提出した投稿者はパイプラインから除外されており、問題の独自性確保に徹底した配慮がなされています。

2つのサブセット構成

Soohakは「Challenge」と「Refusal」という2種類のサブセットで構成されています。

Challengeサブセットは研究レベルの数学問題で、モデルが正しい答えを導けるかを問います。問題は整数で回答できる形式に統一されており、採点は最終回答の正誤で判断されます。

Refusal Subset（99問）はSoohakが新たに提案する評価軸です。このサブセットに含まれる問題は意図的に「不当な問題（ill-posed problems）」として設計されており、矛盾した条件、欠落した仮定、定義できない答えを含んでいます。モデルは正答を示すのではなく、問題の欠陥を指摘して回答を拒否することで正解と判定されます。数学研究において「この問題は成立しない」と見抜く能力は本質的に重要であり、Soohakはこれを初めて正式な評価項目として導入しています。

主要モデルの評価結果

評価には「Avg@3」と「Pass@3」の2種類の指標が使われています。Avg@3は同じ問題に3回チャレンジした際の平均正解率を指し、Pass@3は3回のうち少なくとも1回正解できた割合を示します。

Challengeサブセットで最も高いAvg@3を記録したのはGemini-3-Proの30.4%でした。GPT-5は26.4%、最強のオープンウェイトモデルであるKimi-2.5は13.9%にとどまり、Claude-Opus-4.5は10.4%です。オープンウェイトモデルはいずれも15%未満であり、最先端の商用モデルとの差が際立っています。

図2: 79問の人間評価セットにおけるモデルと人間チームの正解率。左図は商用・オープンウェイトモデルの比較、右図は人間チームA〜Eと合算カバレッジを示す。Gemini-3-Proのみが人間チームの合算カバレッジを上回った

人間の数学者との比較では、5チーム25名が79問のサンプルに4.5時間で取り組みました。人間チームの合算カバレッジを上回ったのはGemini-3-Proのみであり、それ以外の全モデルは人間チームの集合的な解答範囲に届きませんでした。また、IMOの経験を持つ数学専攻チームが最強の単一チームとなっており、博士研究者よりもオリンピアード経験者が高得点を示す傾向が確認されています。

Refusal Subsetという新たな壁

Avg-Rは、ChallengeスコアとRefusalスコアを組み合わせた複合指標です。このAvg-Rでモデルを再順位付けすると、Challengeスコアだけとは異なる興味深い逆転現象が起きています。

Refusal Subsetでの最高スコアはGLM-5が記録した49.5%でした。しかしそれでも50%未満であり、いかなるモデルも「不当な問題を見抜く能力」で過半数を超えることができていません。GPT-5のRefusalスコアは43.1%と比較的高く、Avg-Rでは純粋な推論力でGemini-3-Proを上回っていたGPT-5がトップに浮上しています。

図3: Challenge・Refusal・Avg-Rの各指標におけるモデル順位。Avg-Rではチャレンジスコアが高いKimi-2.5が3位落下し、拒否能力の高いGLM-5が3位上昇するなど、指標によって順位が大きく変動する

ChallengeスコアではGemini-3-Proが優位ですが、拒否能力を含めた総合力ではGPT-5が上回ります。推論能力だけで評価した場合と、拒否能力を含めた場合とで順位が大きく変わることは、ベンチマーク設計における重要な示唆を与えています。

スケーリングと未解決問題

Qwen3ファミリー（0.6B〜32Bパラメータ）を用いたスケーリング実験では、モデルサイズの増加とともにChallengeとRefusal双方のスコアが向上することが示されました。また、推論トークン数を16,384から81,920まで拡張するテストタイムスケーリングでも性能改善が確認されています。