MLEvolveとは？自己進化LLMエージェントがMLアルゴリズムを自動発見する新手法

12時間の計算予算でMLE-Benchのメダル率65.3%を達成。24時間を使う競合手法（最高63.1%）をコスト半分で上回り、効率と性能を両立した。
Progressive MCGS・Retrospective Memory・Adaptive Code Generationの3要素が連携し、従来エージェントが抱えていた枝間孤立・記憶なし探索・制御不足という課題をそれぞれ解決する。
AlphaEvolveを数学的アルゴリズム最適化タスクで上回り、MLエンジニアリングからアルゴリズム自動発見まで汎用的に対応できることを実証した。

研究の背景と課題

機械学習（ML）の実務では、データ前処理からモデル選択・ハイパーパラメータ調整まで、多くの試行錯誤が必要です。この作業を自動化する「MLエンジニアリングエージェント（MLE Agent）」の研究が近年急速に進んでいますが、既存のアプローチには構造的な問題が3つありました。

第1は枝間孤立（Inter-branch Isolation）です。モンテカルロ木探索（MCTS）をベースとした手法では、異なる探索経路が得た知見を互いに共有できず、同じ失敗を繰り返してしまいます。第2は記憶なし探索（Memoryless Exploration）で、過去のイテレーションで得た経験を蓄積・再利用する仕組みがなく、長期的な改善が難しい状態でした。第3は階層制御の欠如です。戦略的な計画とコード実装が混在することで、複雑なタスクでの安定性が低下していました。

これらの課題を一度に解決するアプローチとして、今回発表されたMLEvolveが注目を集めています。

図1: MLEvolveの全体概要。左側に既存エージェントの3つの課題（枝間孤立・記憶なし探索・階層制御の欠如）が示され、右側にそれぞれへの解決策（Progressive MCGS・Retrospective Memory・Hierarchical Planning with Adaptive Code Generation）が対応する形で配置されている。

3つの革新的な仕組み

MLEvolveは3つの独立したコンポーネントが連携して動作する設計になっています。

Progressive MCGS（段階的モンテカルログラフ探索）は、従来の木構造（ツリー）をグラフ構造へと拡張した手法です。各探索枝に「参照エッジ」を追加することで、異なる経路間での情報共有が可能になりました。たとえば、ある探索枝で「この前処理手法は精度に効果的」という知見が得られると、別の枝の探索にも直接活かせます。また、探索初期は広く可能性を探り、徐々に有望な領域に集中するエントロピーベースのスケジュールを採用しており、探索と活用のバランスを自動で調整します。

2つ目はRetrospective Memory（振り返り型メモリ）です。タスク開始時に使えるドメイン知識ベース（コールドスタート）と、探索を通じて蓄積する動的グローバルメモリの2層構造で設計されています。語彙検索と意味検索を組み合わせたハイブリッド検索により、過去の試行から適切な知見を素早く引き出せます。エージェント自身が経験を積み重ねて後の意思決定に活かすという発想は、Hopeとは？人間の睡眠を模した記憶統合でLLM継続学習を実現する新フレームワークが目指す方向性とも重なる設計思想です。

3つ目はHierarchical Planning with Adaptive Code Generation（階層的計画と適応的コード生成）です。「何を作るか」という戦略的計画と「どう実装するか」というコーディングを明確に分離します。コード生成には全面書き直し・モジュール単位の段階的生成・差分編集の3つのモードがあり、現在の探索状態に応じて自動的に選択されます。根本から戦略を変える段階では全面書き直しを、細かな改善段階では差分編集を使うといった柔軟な対応が可能です。

図2: MLEvolveのフレームワーク構成。Progressive MCGS（グラフベースの枝間情報流と段階的探索スケジュール）、Retrospective Memory（コールドスタート知識ベースと動的グローバルメモリ）、Hierarchical Planning with Adaptive Code Generation（戦略計画とコード実装の分離、3モードのコード生成）の3コンポーネントが連携して動作する様子が示されている。

実験で示された成果

主な評価にはKaggleコンペティションのタスクを模したベンチマーク「MLE-Bench」が使われました。MLEvolveは12時間の計算予算で平均メダル率65.3%を達成しています。これは24時間を使う競合手法（MARS+: 62.7%、AIBuildAI: 63.1%）を上回る数値であり、半分のコストでより高い精度を実現した形になります。

詳細を見ると、有効提出率100%、中央値以上の率76.0%、金メダル率34.7%となっています。難易度別では低難度80.3%・中難度64.0%・高難度46.7%と、難しいタスクほど数値は下がりますが、全難易度で安定した性能を示しました。

また、GoogleのAlphaEvolveとの比較では、数学的アルゴリズムの最適化タスクでMLEvolveが上回る結果を残しています。AlphaEvolveはアルゴリズム発見に特化したシステムですが、汎用フレームワークであるMLEvolveがそれを超えた点は、自動アルゴリズム発見の研究に新たな可能性を示すものです。

アブレーション実験ではProgressve MCGSとRetrospective Memoryの両方が性能向上に寄与しており、どちらか一方を取り除くと明確な性能低下が確認されています。3つのコンポーネントが互いに補完し合うことが、高い性能の鍵になっています。

まとめと今後の展望

MLEvolveは「探索・記憶・実装」という3つの課題をそれぞれ独立したコンポーネントで解決することで、従来のMLエージェントが抱えていた根本的な限界を乗り越えました。グラフ探索による枝間の知識共有と、2層メモリによる経験蓄積という設計が、長期的なタスクへの対応力を大きく引き上げています。

課題としては、高難度タスクでのメダル率（46.7%）にまだ改善の余地が残っている点、コールドスタート知識ベースの品質がドメインによって異なる可能性がある点が挙げられます。コードはGitHubで公開されており、再現性の高い研究です。MLの専門知識がなくても高品質なアルゴリズムを自動発見できる基盤として、今後の実用展開と研究の発展が期待されます。