進化的アルゴリズムでLLMの能力向上を図る方法

言語・LLM
  • 進化的アルゴリズムを利用してLLMの問題解決能力を向上させる手法「Mind Evolution」を提案
  • 複数の解を生成し適応度評価、交差や変異で解を進化させる「島型モデル」を採用
  • 実験で高い成功率と効率性を示し、複雑なタスクにおけるLLMの性能向上を確認

論文:Evolving Deeper LLM Thinking

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。

本論文の概要

この論文では、より高度なLLM(大規模言語モデル)の推論能力を育成するための新たなアプローチとして「Mind Evolution」が提案されています。この手法は、進化的アルゴリズムを活用し、自然言語空間内での問題解決能力を改善することを目的としています。これにより、LLMが提供する生成解を評価し、改善しながら解決策を進化させるプロセスを構築しています。

具体的には、Mind Evolutionは以下のプロセスを備えます。まず、与えられたタスクに対して複数の初期解が生成され、それらを評価する「適応度評価」が実施されます。その後、評価結果に基づき、選ばれた解が交差や変異を経て新たな世代の解を生み出す「島型モデル」が採用されています。この構造は、解の多様性を保ちながら、優れた結果を効率的に探索することが可能です。また、解の改善には「Critical Conversation(批判的会話)」という手法が導入され、LLMが自身の生成物を分析しフィードバックを与えることで、さらなる性能向上が図られます。

実験では、旅行計画、会議スケジュール作成、高度な暗号解読といった複数の自然言語タスクを用いて評価が行われました。その結果、Mind Evolutionは既存手法を超える成功率を示し、特にタスクが複雑になる場合にその効果が顕著化しました。例えば、「TravelPlanner」タスクにおいて、評価データセットで95%以上の成功率を達成し、他の基準モデルと比較して著しい性能向上を実現しています。また、解の品質改善のみならず、タスク遂行にかかる計算コストやトークン消費の効率性も考慮されており、その総合的な有用性が示されました。

この手法は、LLMが現実世界の複雑な問題に直面したときにも適切な解を生み出せる能力を高めるものであり、今後の幅広い応用可能性が期待されます。

図表の解説

図1は、Mind Evolutionと呼ばれる手法を示しています。これは、自然言語で操作される遺伝的進化検索戦略です。まず、LLM(大規模言語モデル)がいくつかの候補となる旅行計画を生成します。次に、これらの計画が評価されて、満たすべき基準にどれほど適合しているかによって選別されます。評価段階では、より良い提案が識別され、優れたものが次の世代に進みます。評価者のフィードバックを基に、改良が加えられます。特定の世代に到達するか、有効な解答が見つかるまでこのプロセスを繰り返します。この進化的なアプローチにより、多様な候補の探索と有望な解決策の緻密な改良が組み合わさり、問題解決能力が向上します。


この画像は、Mind Evolutionという進化的探索戦略におけるハイパーパラメータを示しています。この研究では、大規模言語モデル(LLM)を使用して、解答候補を生成し、再結合し、改善する方法を説明しています。表には、各ハイパーパラメータのデフォルト値とその説明が記載されています。たとえば、`Ngens`はソリューションを探索するための最大世代数を示し、`Nisland`は進化させる独立した集団の数を示します。これらの値を調整することで、より効率的な探索が可能になり、Mind Evolutionは計算リソースを効率的に活用し、問題解決能力を向上させます。このアプローチは他の戦略に比べて、自然言語計画タスクにおいて高い成功率を示しています。


この表は、自然言語計画タスクの実験結果を示しています。ここでは、さまざまなアプローチを検証し、「Mind Evolution」という新しい手法が特に優れていることを伝えています。 タスクはTravelPlannerやNatural Plan内のTrip PlanningとMeeting Planningがあり、それぞれの成功率、LLM(大規模言語モデル)の呼び出し回数、トークン数、APIのコストが記されています。特に、Mind Evolutionは従来の手法(1-PassやBest-of-Nなど)と比較して高い成功率を示しており、プラスプロ(+pro)と呼ばれる2段階アプローチではほぼすべての問題を解決しています。この結果は、追加の計算リソースを使用して問題解決能力を大幅に向上させるこの手法の優位性を示しています。


図3は、問題の難易度と旅行日数に基づいたTravelPlannerベンチマークの成功率を示しています。この図からわかるように、研究で提案された手法「Mind Evolution」は、他の3つの戦略よりも一貫して高い成功率を達成しています。「Mind Evolution」は、最も難しい条件下でも、ほぼすべての場合で最も高い成功率を示しています。他のアルゴリズムと比べて、特にHard 7-dayの場合の成功率が際立って高く、進化的検索戦略の有効性を示しています。このことから、「Mind Evolution」は問題の複雑さや日数が増加するときでも、他の手法に比べて優れたパフォーマンスを発揮することがわかります。


この画像は、16日間で5つのヨーロッパの都市を訪れる旅行計画の例です。各方法が生成した回答が表されており、特定の日に都市にいる必要があるという条件が示されています。 1-PassとBest-of-Nの方法は、指定された日数を守れず、マドリッドとサントリーニには特定の日に訪れる必要がありますが、要件を完全には満たせていません。Sequential Revisions+では年次イベントを見逃し、存在しないフライトを計画しています。これに対し、Mind Evolutionの計画は全ての要件を満たした正確な解決策を提供しています。 この結果は、Mind Evolutionが他の手法に比べて効果的に問題を解決する能力があることを示しています。


この図は「Meeting Planning」での成功率と評価スコアを、候補解の数に応じて示しています。左の図は平均評価スコアで、候補解が多くなるほど改善しています。右の図は成功率を示し、Mind Evolutionが他の方法に比べて成功率が高いことがわかります。候補解の数が増えると、Mind Evolutionの優位性がさらに明確になります。この結果から、Mind Evolutionが候補解を探索し、改善する能力が高いことが示されています。他の手法、例えばSequential Revisions+やBest-of-Nと比較して、より多くの解決策を効率的に探し出すことができるとされています。


この画像は、StegPoetタスクの例を示しています。左側には、エンコードしたいメッセージ「M」と、詩のスタイル、インスピレーションの元となる作家、隠す単語数の間隔「B」、および詩のテーマが示されています。右側には、対応する解法として詩が表示されています。数値と単語の対応関係が「Cipher」としてリストされ、詩の中に隠されている単語が大文字で示されています。これにより、数値が詩の中で特定の単語に置き換えられる仕組みです。最終的には、与えられた数列が詩に適切に埋め込まれることが目的です。


表6は、StegPoetにおける実験結果を示しています。この表では、異なる推論手法の成功率、トークン数、APIコストを比較しています。さまざまな手法における成功率の違いが示され、特にMind Evolution法が目立って高い成果を示しています。Gemini 1.5 Flashをベースにした結果が通常使用され、未解決の問題をMind EvolutionによるGemini 1.5 Proで解決すると、さらに成功率が向上します。この方法により、より高い問題解決能力が証明され、追加の計算資源を利用することで成果を大幅に改善できることが、この表を通じて明らかにされています。

タイトルとURLをコピーしました