Subquadratic、LLMの注意機構ボトルネックを突破 — FlashAttention比56倍高速化を主張

マイアミ発スタートアップSubquadraticが疎注意技術「SubQ」を発表し、第三者評価でFlashAttention比56倍の処理速度を主張しました
1200万トークンのコンテキストウィンドウで精度98%、コーディングベンチマークLiveCodeBenchで89.7%のスコアを達成したと報告しています
元OpenAI研究者は二次問題解決の主張に慎重な見方を示しており、独立した広範な検証が今後の課題となります

注意機構が抱える「二次の壁」

現代のLLMは、Transformerアーキテクチャの「注意機構（Attention）」に依存しています。注意機構は入力されたテキスト中のすべてのトークン（単語の断片）どうしの関係性を計算するもので、テキストが長くなるにつれて計算量が急増します。1万語の文書を処理するには約5000万回の乗算が必要となり、テキスト長を2倍にすると計算量は4倍に膨れ上がります。

この「二次的な増加（quadratic scaling）」が、LLMが長いコンテキストを扱う際の根本的な制約として約10年にわたって業界の課題でした。高速化のためにFlashAttentionなどの最適化手法が登場したものの、二次計算量という根本問題そのものを解決するには至りませんでした。

SubQの仕組みと主張する性能

Subquadraticが開発した「SubQ」は、動的な疎注意（dynamic sparse attention）でこの問題に取り組みます。従来の「密な注意（dense attention）」がすべてのトークンの組み合わせを計算するのに対し、SubQは入力ごとにどの接続が重要かをリアルタイムで判断し、関連性の高いトークン同士の関係だけを選択的に計算します。

第三者評価会社Appenによるベンチマーク結果として、同社はFlashAttentionと比べて56倍の処理速度を達成したと主張しています。コーディング性能を測るLiveCodeBenchでは89.7%のスコアを記録しており、最先端モデルに匹敵するレベルだとしています。

長文コンテキストの評価では、600万トークンと1200万トークンの両条件でNeedle-in-a-haystack（大量テキストの中から特定の情報を探す）テストを実施し、いずれも98%の精度を達成しました。コンテキストウィンドウの上限は1200万トークンで、競合他社の約12倍に相当します。コスト面でも顕著な差があり、RULERベンチマークではSubQが8ドルで処理できる量を、Anthropicのモデルでは2600ドルかかると同社は主張しています。

第三者評価と専門家の見方

Subquadraticは性能データの信頼性を高めるため、独立した評価機関Appenに検証を依頼しました。AppenのAI研究担当ディレクター、ジャニン・シナナン＝シンは「驚くような結果は、自分で主張するだけでは信頼性がない」と語っており、第三者検証の意義を強調しています。

一方、元OpenAI研究者のウィル・デピューは慎重な見方を示しています。「公開されている証拠は、二次的な注意ボトルネックを解決したという強い主張を裏付けるには、まだ不十分です」と指摘しており、より広範な実証データを求める声もあります。LLMの効率化アプローチとしては、計算グラフの形状を変えてFLOPsを削減するVariable-Width Transformersのような研究も進んでおり、SubQが業界標準となるかは今後の検証次第でしょう。