Live Music Diffusion Modelsとは？30msで動くリアルタイム音楽生成の新手法

KVキャッシング対応アーキテクチャで拡散ステップの再計算を削減し、消費者向けGPUで30ms以下の推論レイテンシを達成
ARC-Forcingにより強化学習・報酬モデル不要のポストトレーニングを実現し、長時間生成時の音質劣化を抑制。FDスコアはMusicGen-Largeの約6倍改善
テキスト・スケッチ・伴奏の3種類の入力形式に対応し、DJや即興演奏家のライブパフォーマンスでの実用を想定した設計

研究の背景

MusicGenやStable Audioといった音楽生成モデルは、高品質な楽曲を生成できるようになりました。しかし、これらをリアルタイムのライブパフォーマンスに活用するには大きな壁があります。演奏中に次の音楽ブロックを即座に生成するには、数百ミリ秒以内という厳しい遅延要件を満たさなければならないためです。

従来の拡散モデルは、クリーンなコンテキスト（生成済みの音楽）とノイズが加えられたターゲットフレームを同一のアテンション機構で処理します。そのため各推論ステップでコンテキスト全体を再計算する必要があり、この計算コストがリアルタイム応用を妨げていました。

LMDMsの設計思想

図1: 標準ブロックAR拡散（左上）とLMDMsのアーキテクチャ比較。LMDMsはクリーンコンテキストとノイズ付きターゲットを分離処理することでKVキャッシングを実現し、消費者向けハードウェアでのリアルタイム音楽生成を可能にする。

Live Music Diffusion Models（LMDM）の核心は、クリーンコンテキストとノイズ付きターゲットを分離した処理経路に振り分けるという設計にあります。標準的なブロックAR拡散では両者が混在した状態でアテンション計算が行われるため、コンテキストの符号化結果をキャッシュできません。LMDMsはこの問題をアーキテクチャレベルで解決します。

LMDMsには2つの変種があります。Enc-Dec LMDMでは、コンテキストフレームは相互のみに注目し、ターゲットフレームはすべてのフレームに注目できる非対称なアテンションパターンを採用します。これにより、拡散ステップをまたいだKVキャッシングが実現します。一方のBlock-Causal LMDMは、コンテキスト内でもブロック因果性を強制することで、拡散ステップと時間軸の両方でKVキャッシングを実現し、理論的にはさらに効率的な推論が可能です。

KVキャッシングによる高速化

図2: 標準ブロックAR拡散（左）とLMDM Enc-Dec版（右）の計算グラフの違い。クリーン状態とノイズ状態の混合を分離することで、クリーンフレームのKVキャッシングが可能になる。

KVキャッシング（Key-Value Caching）は、Transformerの自己注意機構におけるKeyとValueの計算結果を保存して再利用する技術です。テキスト生成AIでは広く使われていますが、拡散モデルへの適用には工夫が必要でした。

LMDMsでは、コンテキストフレームのKV計算結果を拡散ステップをまたいでキャッシュします。従来は各ステップでコンテキスト全体を再計算していましたが、LMDMsはこれを1回だけ計算すれば済みます。この改善だけでフォワードパスあたり約20〜25%の高速化が得られ、8ステップ蒸留との組み合わせで推論レイテンシを30ms以下に短縮できます。なお、KVキャッシュの効率化は他の生成モデルでも注目されており、WorldKVのようにKVキャッシュを選別して動画生成を2倍高速化する手法も提案されるなど、マルチメディア生成全般でのトレンドとなっています。

ARC-Forcingとは

図3: ARC-Forcingの学習パイプライン。生成器GがKVキャッシングを使ったARロールアウトを生成し、その出力と実際の音楽を識別器Dに渡して相対論的損失で学習する。テキスト追従性向上のための対照損失も補助的に適用される。

LMDMsが高速に動作できるようになっても、もう一つの課題が残ります。ブロックを順番に生成していく自己回帰的な推論では、各ブロックのわずかな誤差が積み重なり、長時間生成すると音質が徐々に劣化する「誤差累積」の問題が発生します。

ARC-Forcing（Annealing Reference Conditioning Forcing）は、この問題に対するポストトレーニングアライメント手法です。強化学習や報酬モデルを一切使わずに、生成器Gが自己回帰的なロールアウトを生成し、その出力と実際の音楽を相対論的損失（relativistic loss）を持つ識別器Dで比較します。識別器には、テキストと音楽の整合性を高めるための対照損失も補助的に加えられています。

「Annealing」という名前は、生成時に本物の音楽コンテキストと生成コンテキストの比率を徐々に変化させる点に由来します。これにより、長時間生成での誤差累積を強く抑制しながら、テキスト指示への追従性も維持できます。

実験結果と定量評価

図4: 時間経過に伴うグローバルテキスト条件付き指標の推移。ARC-Forcingを適用することで、Enc-DecとBlock-Causalの両LMDMsで誤差累積と指標の劣化が大幅に抑えられる。

テキスト条件付き生成の評価では、音質を測るFréchet Distance（FD）、音響分布の適合度を測るKL発散、テキスト追従性を測るCLAPスコアで比較が行われました。

ARC-Forcing適用後のLMDM（Enc-Dec）は、FDが29.00と、MusicGen-Largeの190.47やStable Audio Openの96.51と比べて大幅に優れた音質を示しました。長時間生成（2分以上）においても、ARC-Forcingなしでは急速に劣化していた各指標が、適用後は安定して維持されています。一方で、CLAPスコアはわずかな低下も見られており、音質の安定化とテキスト追従性の間にはトレードオフが残ります。

スケッチ制御モードでは、CQT（定Q変換）スペクトログラムと音量情報をリアルタイムで入力し、メロディ・リズム・ダイナミクスの各制御精度が評価されました。伴奏生成（Accompaniment）モードでは、演奏者の音楽に合わせてモデルが伴奏を生成する整合性指標「CoCoLA」で評価されており、リアルタイムの遅延を考慮した設定でも十分な整合性が保たれています。

ライブ演奏への実装と応用

図7: JUCEで構築されたユーザーインタフェース。ユーザースタディや実際のライブパフォーマンスで使用されたシステム。

論文では、ONNX形式へのエクスポートとC++/JUCEフレームワークを組み合わせることで、消費者向けゲーミングノートPCでの動作を実現しています。インタフェースでは、テキストプロンプトの入力、スケッチコントローラー、伴奏入力をリアルタイムで切り替えられる設計になっています。

実際のミュージシャン（サックス、ギター、チェロ奏者）との演奏実験では、モデルが演奏パートナーとして機能し、演奏スタイルへの応答と新しいアイデアの提示を両立できることが確認されました。プロンプト遷移機能も実装されており、Classifier-Free Guidance++（CFG++）を組み合わせることでテキスト指示を切り替えながらも音楽的なつながりを保った遷移が可能です。