DeepSeek V4、100万トークンのコンテキスト窓でAIエージェントの長文処理を実用レベルへ

V4-Proはハイブリッドアテンションで1トークンあたりの推論FLOPsをV3.2比27%、KVキャッシュを10%まで削減し、100万トークン処理を現実的なコストで実現する
ツール呼び出しをまたいで推論履歴を保持する「インタリーブドシンキング」とXMLベースのツールスキーマが、長期エージェントタスクの安定性を高める
SWE Verified 80.6、MCPAtlas 73.6など主要エージェントベンチマークでフロンティアモデルと同水準の性能を達成（技術レポートTable 6）

V4リリースの概要

DeepSeekは2026年4月24日、「DeepSeek V4」を公開しました。Hugging Faceには4つのチェックポイントが公開されており、主力のDeepSeek-V4-Pro（総パラメーター1.6兆、アクティブ490億のMoE構成）と軽量版のDeepSeek-V4-Flash（総284億、アクティブ130億）、それぞれのベースモデルが揃っています。双方のインストラクトモデルは100万トークンのコンテキスト窓を持ちます。

Hugging Faceの解説記事は「ベンチマーク数値の優位性よりもアーキテクチャ設計が本質的な革新だ」と位置づけています。エージェントが長期タスクを実行する際に生じるKVキャッシュとFLOPsの増大を根本から抑えた点が評価の核心です。

KVキャッシュ問題と削減効果

エージェントがSWE-benchのような長いツール使用トレースを実行する場合、各ツール呼び出しの結果がコンテキストに追記され、次のトークン生成はそれ以前の全履歴に対してアテンション計算を行います。100万トークン規模ではこの計算コストとKVキャッシュのメモリ消費が実用上の壁になります。

V4-Proでは、1トークンあたりの推論FLOPsがDeepSeek V3.2比で27%、KVキャッシュメモリが10%に抑えられています。V4-FlashはさらにFLOPsを10%、KVキャッシュを7%まで圧縮します。8ヘッドのグループクエリアテンション（GQA）をbfloat16で保持する標準的な構成と比べると、V4のKVキャッシュサイズは約2%に相当します。

ハイブリッドアテンションの仕組み

この効率化は、「圧縮スパースアテンション（CSA）」と「高圧縮アテンション（HCA）」を層ごとに交互に配置するハイブリッド設計によって実現されています。

CSAはKVエントリをシーケンス次元で4倍に圧縮し、FP4精度のライトニングインデクサーが各クエリに対して上位kブロックをスパース選択します。スパース選択の探索空間自体がすでに4倍短い圧縮ブロックに対して行われるため、計算量は二重に削減されます。HCAはさらに強力で、128倍の圧縮後に全ブロックへの密なアテンションを実施します。圧縮後のシーケンスが十分短いためスパース選択なしでもコストが低く、V4-Proの61層スタックではHCAとCSAを交互に配置しています。KVエントリの大半をFP8で格納し、ライトニングインデクサーはFP4で動作させることで、圧縮率と記憶効率が複合的に高まります。

図1: CSAとHCAのハイブリッドアテンション構成。CSAは4倍圧縮後にスパース選択、HCAは128倍圧縮後に密なアテンションを行い、層ごとに使い分ける

エージェント特化の3つの設計

アーキテクチャ上の効率化に加え、V4にはエージェントワークフローを直接ターゲットにした設計が3点加わっています。

1点目は推論履歴の保持です。V3.2ではユーザーメッセージが届くたびに推論がリセットされ、長期タスクで積み上げた思考内容が失われていました。V4ではツール呼び出しを含む会話に限り、新しいユーザーメッセージをまたいでも推論履歴を保持します。ツールなしの通常会話では従来通りリセットされるため、不必要なコンテキスト肥大を防いでいます。

2点目はツール呼び出しスキーマの刷新です。専用トークン|DSML|とXML形式を採用し、従来のJSON文字列埋め込みで頻発するエスケープ失敗を解消しています。文字列パラメーターと構造化パラメーターをstring="true"/string="false"で明示的に区別することで、数値・ブール値のパース誤りも低減します。

3点目はRL訓練用サンドボックス「DSec（DeepSeek Elastic Compute）」です。Rust実装の本基盤はコンテナ・マイクロVM（Firecracker）・フルVM（QEMU）・関数呼び出しの4種類の実行基盤を統一PythonSDKで管理し、数十万の並列ロールアウトを同一クラスターで処理できます。大規模な環境を自律生成してエージェントを訓練する研究と同様の思想で、実際のツール環境に対するRLによってエージェント挙動を強化しています。

ベンチマーク結果と一次資料

エージェント系ベンチマークの数値はDeepSeek V4技術レポート（DeepSeek_V4.pdf）のTable 6に基づいており、Hugging Faceの解説記事でも同表を出典として明示しています。「Toolathlon」「Terminal Bench 2.0」などのベンチマーク名も同レポートに掲載されており、数値を独立して検証する際は一次資料のPDFを参照することを推奨します。なお、比較対象として登場する「Opus-4.6-Max」はDeepSeekの技術レポートが用いる表記であり、Anthropicの公式モデル命名規則とは異なる可能性がある点にも留意が必要です。

主な数値は次のとおりです。SWE Verifiedで80.6、MCPAtlas Publicで73.6、Toolathlonで51.8、Terminal Bench 2.0で67.9を記録しています。知識・推論系では最先端を更新していないものの、エージェントタスクに限れば同期間の主要クローズドモデルと同水準の性能です。

長文コンテキスト検索性能については、MRCR 8-needleテストで256Kトークンまで正解率0.82以上を維持し、1Mトークンで0.59を保っています。社内研究開発向けコーディングベンチマーク（PyTorch・CUDA・Rust・C++の30課題）ではV4-Pro-Maxが67%のパス率を達成しており、社内開発者85名への調査では52%が「現在の主力コーディングモデルを置き換える準備ができている」と回答しています。コミュニティにとっての課題は、|DSML|スキーマへの対応と、インタリーブドシンキングの効果が既存のエージェントフレームワークにどこまで移転するかの検証です。