Thinking Machines Lab、全二重AIを発表 — 話しながら聞ける対話モデルで応答0.40秒を実現

現行AIの「話す→聞く→応答→聞く」という半二重設計を覆し、入力と出力を同時並行で処理する全二重モデル「TML-Interaction-Small」を発表
200ミリ秒単位のマイクロターン方式で応答遅延0.40秒を達成。OpenAI GPT-Realtime-2.0（1.18秒）やGemini（0.57秒）を大幅に上回る
インタラクションモデルとバックグラウンドモデルの二層構造で、リアルタイム応答と深い推論・ツール利用を両立する

半二重通信が生む協業の断絶

元OpenAI CTOのMira Murati氏が設立したThinking Machines Labは2026年5月11日、「インタラクションモデル」と呼ぶ新しいAIアーキテクチャを発表しました。現在のあらゆる音声AIは、ユーザーが話し終えてから応答を生成し始める半二重（half-duplex）方式で動作しています。ユーザーが入力中はモデルが待機し、モデルが生成中はユーザーの新たな発話を受け取れないという構造です。

同社はこの設計を「協業のボトルネック」と表現します。人間どうしの会話では、相手の発話に割り込んだり、話しながら相手の反応を読んだりすることが自然に行われます。しかし現行のAIインターフェースはこうした並列性を持たず、ユーザーが意図の全てを先に伝えてからAIに委ねる形を強いているという指摘です。

200ミリ秒のマイクロターン設計

新モデル「TML-Interaction-Small」は、全二重（full-duplex）設計を採用します。入力と出力を200ミリ秒単位の「マイクロターン」として連続的に処理することで、ユーザーの発話を聞きながら同時に応答を生成できます。

ターン境界の検出に音声活動検出（VAD）などの外部コンポーネントを使わず、インタラクティブ性をモデル本体に組み込んでいる点が特徴です。これにより「ユーザーが誤った発音をしたらすぐに指摘する」「スペイン語の発話をリアルタイムで英語に翻訳する」といった対話モードが実現します。多言語音声AIの領域ではWispr Flowなどのプロダクトも実用化を急いでいますが、Thinking Machines Labはアーキテクチャレベルからの刷新を狙います。

時間認識や視覚的トリガーへの反応も従来モデルでは困難でしたが、TML-Interaction-Smallは「4秒ごとに呼吸を促すリマインダーを送る」「ユーザーの腕立て伏せの回数をリアルタイムで数える」といった能力をベンチマークで実証しています。

二層アーキテクチャの仕組み

深い推論やツール利用が必要なタスクに対応するため、システムは二層構造を採ります。リアルタイムで応答する「インタラクションモデル」が常時ユーザーと対話しつつ、負荷の大きいタスクを非同期で処理する「バックグラウンドモデル」に委任します。バックグラウンドモデルの処理結果は、会話の流れに合わせて自然に統合されます。

現在の「TML-Interaction-Small」は2760億パラメータのMixture of Experts（MoE）モデルで、推論時に活性化するパラメータは120億です。同社は今後、より大規模なモデルへのスケールアップを計画しています。

ベンチマーク結果と今後の展開

対話品質を測る「FD-bench v1.5」では平均スコア77.8を記録し、OpenAI GPT-Realtime-2.0（minimal）の46.8やGemini-3.1-flash-live（high）の45.5を大幅に上回りました。応答遅延は0.40秒で、GPT-Realtime-2.0の1.18秒と比較すると約3分の1です。音声理解の知性指標「Audio MultiChallenge APR」では43.4%を記録し、非思考モデルの中で最高スコアとなっています。

長時間セッションでのコンテキスト管理や安定した低遅延接続の必要性など、課題は残っています。同社は今後数ヶ月以内に限定的なリサーチプレビューを開始し、2026年中により広い公開を予定しています。現時点ではあくまで研究プレビューの段階であり、実際のユーザー体験がベンチマーク結果に見合うかどうかは公開後の検証が待たれます。