dots.ttsとは？連続潜在空間で学習する20億パラメータの多言語TTS基盤モデル

AudioVAEが48kHz音声を128次元の連続潜在空間に圧縮し、意味情報と音響情報を同時に構造化してLLMと自然に統合
全履歴条件付けフローマッチングヘッドと報酬フリー自己補正後学習（SOAR）で中国語WER 0.94%・英語WER 1.30%を達成
初音パケット遅延85ms/54msの低遅延を実現し、訓練・推論コードとモデル重みをApache 2.0で公開予定

研究の背景と課題

テキスト読み上げ（TTS）技術は、大規模言語モデル（LLM）の発展とともに急速に進化しています。しかし従来の多くの手法では、音声を「離散的なトークン」として表現するアプローチが主流でした。離散トークンとは音声波形を有限個の記号に変換する方法で、量子化による情報の損失が避けられないという根本的な問題があります。

長い文章を読み上げる際に前後の音声が一貫した音質や自然なイントネーションを保つことも課題です。さらに実用システムでは、テキスト入力から最初の音声が出力されるまでの「初音遅延」を短く抑えることが求められます。精度と低遅延を同時に満たすことは、従来手法では難しい要件でした。

こうした背景のもと、dots社が発表したdots.ttsは、音声を連続潜在空間でモデル化する新しいアーキテクチャを提案しています。Qwen2.5-1.5Bをベースに合計20億パラメータの多言語モデルとして構築され、150万時間の音声データで訓練されました。訓練・推論コードとモデル重みをApache 2.0ライセンスでオープンソース公開する予定です。

AudioVAE：意味的に構造化された音声空間

dots.ttsの基盤となるのが「AudioVAE（音声変分オートエンコーダ）」です。変分オートエンコーダとは、入力データを低次元の「潜在空間」に圧縮し、そこから元のデータを再構成できる生成モデルの一種です。AudioVAEは48kHzの高品質音声を128次元の連続ベクトルに圧縮し、秒間6.25フレームという低フレームレートで音声情報を保持します。

学習は2段階で行います。第1ステージでは複数の時間・周波数スケールにわたる敵対的損失とメルスペクトログラム損失を組み合わせ、音声の忠実な再構成を優先して学習します。第2ステージでは、音声認識モデルWavLMの内部表現を教師として使い、潜在空間が音声の言語的な意味構造を反映するよう整列させます。さらに音声認識・感情識別・話者識別という3種類のタスクを同時に学習する多タスク学習も導入します。

この2段階学習により、AudioVAEの潜在空間は「何を話しているか（言語内容）」と「誰がどのように話しているか（話者・感情）」の両方の情報を体系的に保持します。次段階の生成モデルにとって予測しやすい空間になっている点が設計の核心です。

図1: dots.ttsのバックボーク全体像。BPEテキストトークンと6.25Hzの音声意味埋め込みが単一のLLMストリームを共有し、各LLM隠れ状態がAR-FMヘッドを条件付けして次の4フレームのVAE潜在パッチを生成する

自己回帰フローマッチングヘッド

テキストから音声への生成を担うのが「AR-FM（自己回帰フローマッチング）ヘッド」です。フローマッチングとは、ランダムなノイズから目標の音声潜在表現へと連続的に変換する経路を学習する生成手法です。拡散モデルと同様の確率的生成過程をベースにしますが、より直接的な変換経路を学習することで効率的な推論を実現しています。

AR-FMヘッドは18層のDiT（Diffusion Transformer）ベースのアーキテクチャです。LLMの各ステップで得られる隠れ状態を条件として受け取り、4フレーム分のVAE潜在パッチをまとめて生成します。各入力はLLMの隠れ状態（1トークン）、直前の清潔なパッチ（4トークン）、ノイズパッチ（4トークン）の3要素を単一シーケンスに結合したものです。生成した音声潜在は次ステップの意味エンコーダへ戻され、テキストと音声の情報を継続的に共同処理します。

重要な設計が「全履歴条件付け」です。計算量節約のために直近フレームのみを参照する手法も存在しますが、dots.ttsは生成済みのすべての音声潜在表現を参照します。ブロック因果アテンションとRoPE（回転位置エンコーディング）の工夫により、訓練時と推論時で同じ相対位置関係が保証されます。これにより長い発話でも一貫した音質と韻律を維持し、イントネーションが崩れる「ドリフト」現象を抑えます。

図2: AR-FMヘッドのアテンションマスクとRoPE位置ID。訓練時のブロック因果マスク（左上）と推論時のマスク（右上）、位置ID割り当て（下段）を示す。訓練と推論で同じ相対位置が保証される設計になっている

SOAR：報酬フリー自己補正後学習

モデルをさらに改善するために「SOAR（Self-cOrrective post-training for AR-FM）」という後学習手法が導入されています。通常の学習ではモデルは正解の音声から計算された理想的なノイズ状態を入力として受け取ります。しかし実際の推論時には、前のステップで自分が生成した音声（若干の誤りを含む）を次ステップの入力として使います。この訓練と推論のギャップが累積誤差を引き起こします。

SOARでは、モデル自身が「Eulerロールアウト（段階的な数値積分による軌道計算）」で生成した、正しい経路から外れた状態を人工的に作り出し、そこから正しい音声潜在表現へ戻る補正を学習させます。報酬モデルや外部の教師モデルが不要なため、追加の人手ラベリングなしにロバスト性と音質を向上できる点が利点です。

実験結果と性能比較

評価は音声合成の標準ベンチマーク「Seed-TTS-Eval」で行いました。WER（単語誤り率）は生成音声を音声認識モデルで認識して測定する指標で、値が低いほど発音が正確なことを示します。話者類似度（SIM）は参照音声と生成音声の話者特徴の一致度を示し、100が最大です。

テスト項目	WER (%)	話者類似度 (SIM)
中国語（標準）	0.94	81.0
英語	1.30	77.1
中国語（高難度）	6.60	79.5

複数条件の平均スコアでは、dots.tts（SOAR）が平均WER 2.95%・SIM 79.2を記録し、Seed-TTS（WER 3.65%・SIM 77.8）やVoxCPM 2（WER 3.65%・SIM 76.7）を上回りました。固有名詞や英数字混じりのテキストを含む高難度評価でも6.60%のWERを達成しており、実用的な場面での対応力を示しています。

推論速度については、出力ストリーミングモードで初音パケット遅延85ms（リアルタイム係数RTF=0.231）を実現しています。テキスト入力と音声出力を同時に処理するデュアルストリーミングモードでは54msまで短縮されており、リアルタイム対話システムへの組み込みに十分な速度です。MeanFlow蒸留によって生成ステップ数を4ステップ程度に削減でき、さらなる高速化も可能です。

まとめと今後の展望

dots.ttsは、連続潜在空間による音声モデリング、全履歴条件付けのフローマッチング、報酬フリー自己補正後学習を組み合わせることで、精度と低遅延を高水準で両立した多言語TTS基盤モデルです。150万時間の学習データと20億パラメータの規模で、既存の代表的なシステムを上回る性能を示しました。

Apache 2.0での完全公開という方針も注目されます。訓練パイプライン・推論コード・複数のモデルチェックポイントがすべて利用可能になることで、音声合成の研究や製品開発をより広いコミュニティが進めやすくなります。一方、現状の評価は主に中国語と英語が対象であり、他言語での性能や非常に長い発話での安定性については引き続き検証が必要です。連続潜在空間という設計の利点が他の言語でどこまで発揮されるかが、今後の重要な評価軸になるでしょう。