Hopeとは？人間の睡眠を模した記憶統合でLLM継続学習を実現する新フレームワーク

人間のノンレム・レム睡眠に対応したKnowledge SeedingとDreamingの2段階処理で、LLMが学習内容をパラメータとして定着させる「Sleep」パラダイムを提案
数学推論ベンチマークAIME-24でSleep=79.2%と既存のRL手法（GRPO 76.4%）を上回り、少数ショット学習（ARC）でも80%成功率を達成
BABILongベンチマークでは100万トークンを超える超長文脈スケールでも安定した性能を維持し、継続翻訳・知識組み込みなど複数タスクで有効性を確認

LLMが抱える記憶の限界

大規模言語モデル（LLM）は、プロンプト内に情報を与えるコンテキスト内学習（In-Context Learning、ICL）を通じて、新しい知識を一時的に利用できます。しかし、ICLで取り込んだ知識はモデルのパラメータには書き込まれません。セッションをまたぐと記憶は消え、次の推論では同じ情報を改めて与え直さなければならないという根本的な制約があります。

また継続学習の設定では、新しいタスクを学習するたびに以前の知識が上書きされる「壊滅的忘却」も深刻な課題です。Google DeepMindの研究チームは、人間が眠りながら記憶を整理・統合するメカニズムに着目し、この問題に新しい角度から取り組みました。

図1: 従来の機械学習（訓練・テストの分離）と継続学習の違い。HopeはWake Time（活動中）とSleep Time（睡眠中）を区別し、Sleep中に記憶を不安定な高頻度モジュールから安定した低頻度モジュールへ統合する。

Hopeアーキテクチャの概要

提案手法「Hope（Hierarchically Organized Parameter Expansion）」は、人間の睡眠サイクルに対応した2つのフェーズを持ちます。ノンレム睡眠に相当する記憶統合フェーズと、レム睡眠に相当するDreaming（夢見）フェーズです。

記憶は「高頻度記憶（High-Frequency Memory）」「中頻度記憶（Mid-Frequency Memory）」「低頻度記憶（Low-Frequency Memory）」の3階層に分かれています。新しい知識はまず更新頻度の高い高頻度層に蓄えられ、Sleep Timeになると下位の安定した層へ順次転送されます。パラメータはスパースな専門家混合（Mixture-of-Experts）的な拡張によって増設され、既存知識を損なわずに容量を増やす仕組みになっています。

図2: 記憶統合の概要。モデルはパラメータ拡張で容量を増やし（左）、Knowledge Seedingで高頻度記憶の知識抽象を低頻度の安定した記憶へ転送する（右）。

知識播種と上方向への蒸留

Sleep Timeの中核をなすのがKnowledge Seeding（知識播種）です。通常の知識蒸留は大きな教師モデルから小さな生徒モデルへ知識を転送しますが、Hopeはその逆方向を行います。Sleep前の小さな自己（過去のモデル状態）の知識を、Sleep中に拡張された大きなモデルへ注入するのです。

この蒸留には強化学習（RL）を組み合わせた模倣学習が使われます。意味的類似度とLevenshtein距離（編集距離）の2種類の報酬をRL信号として活用することで、単純な出力コピーではなく知識の抽象的なパターンを転送できます。また、教師（小モデル）が生成したデータと生徒（大モデル）が生成したデータを重み付け混合する「一般化知識蒸留」も採用し、未知の環境への汎化性を高めています。

Dreamingによる自己改善

Dreamingフェーズでは、モデルが強化学習を使って合成データのカリキュラムを自ら生成し、人間の監督なしに能力を洗練させます。勾配ベースの重要度スコアを用いて最も学習効果が高いデータを優先的に練習する仕組みです。

この自律的な反復練習が、特に論理的推論や知識組み込みタスクで大きな効果をもたらします。アブレーション実験（要素除去による性能比較）では、Dreamingを完全に取り除いた場合にSQuAD知識組み込みタスクのスコアが48.9から35.7へと急落することが確認されており、このフェーズが性能を支える中核部分であることがわかります。

なお、Dreamingフェーズは1ステップあたりの計算コストがSFT（教師あり微調整）の約4倍かかります。ただし目標性能に達するまでの総学習時間では3.6〜4.8倍の効率化が実現しており、単純なコスト増ではないことが報告されています。

複数タスクでの実験結果

継続学習の標準ベンチマークであるクラス増分学習（Class-Incremental Learning）では、テキスト分類データセットCLINC・Banking・DBpediaの全3つでHopeが最高精度を達成し、ICLベースライン・EWC・InCAといった既存手法を一貫して上回りました。

図3: CLINC・Banking・DBpediaの3データセットにおけるクラス増分テキスト分類の精度比較。Hopeが全データセットで最高精度を達成している。

数学的推論ベンチマークでは、Qwen3-8Bモデルを使った評価でAIME-24スコアがSleep=79.2%、OPSD=76.6%、GRPO=76.4%と、提案手法が既存のRL手法を上回りました。より小規模なQwen3-1.7BでもAIME-24で53.2%（Sleep）対51.6%（OPSD）対51.0%（GRPO）と一貫した優位性が確認されています。

少数ショット学習（ARC抽象推論タスク）では成功率80%を達成し、SEAL（72.5%）・TTT（10%）・ICL（0%）を大きく上回りました。知識組み込み評価（SQuAD統合タスク）では、1パッセージ処理時に48.9（4段階Hope）対46.7（SEAL）対31.9（ベースライン）という結果が得られており、LLMの事前学習を効率化する手法と相補的に活用できる可能性があります。

図6: BABILongベンチマークの結果。Hopeは超長文脈スケールで安定した性能を維持し、RAGを使ったLlama-8Bが128K〜256Kトークン付近で劣化するのとは対照的な結果を示す。

長文脈理解の評価でも顕著な結果が示されています。BABILongベンチマークでは、RAGを使ったLlama-8Bがコンテキスト長128K〜256Kトークン付近で性能が劣化するのに対し、Hopeは100万トークンスケールまで安定した性能を保ちます。また継続翻訳タスク（CTNL）では、ICLが逐次学習で性能を急激に落とす一方、Hope-3が単一言語での学習性能をほぼ回復することも示されました。

まとめと今後の展望

Hopeフレームワークは、知識蒸留・パラメータ拡張・強化学習を組み合わせ、人間の睡眠サイクルに対応した形でLLMの継続学習を実現する新しいアーキテクチャです。ICLが苦手とする「知識のパラメータ定着」と「壊滅的忘却」の双方に対処し、数学推論・長文脈理解・少数ショット学習など複数の評価軸で既存手法を上回ることが示されました。

一方で、いくつかの課題も残っています。動的パラメータマスクの実装は複雑であり、Sleep Timeの運用にはエンジニアリング上の工夫が必要です。今回の実験は主に1.7B〜8B規模のモデルを対象としており、さらに大規模なモデルへのスケーラビリティは今後の検証課題として残されています。また、RL報酬に使う意味評価モデルが固定されているため、評価の偏りが生じる可能性も指摘されています。マルチモーダルアーキテクチャや多様な言語・ドメインへの適用を含め、Sleepパラダイムのさらなる発展が期待されます。