- 70言語以上の音声をほぼリアルタイムで翻訳し、話者の声の抑揚・テンポ・ピッチを自然に保持する
- Google Translate(iOS/Android)・Google Meet(企業向けプレビュー)・Gemini Live APIの3経路で同時展開
- 全音声出力にSynthIDの透かしを自動付与し、AI生成音声であることを後から検出できる
ほぼリアルタイムの音声翻訳
Googleは2026年6月、音声翻訳モデル「Gemini 3.5 Live Translate」を発表しました。70言語を超える言語の音声を自動検知し、翻訳済みの音声をほぼリアルタイムで出力します。
これまでの多くの翻訳システムは、話者の発話が終わるのを待ってから処理するターンベース方式を採用していました。Gemini 3.5 Live Translateは発話を連続的に処理する仕組みで、話者の発言からわずか数秒の遅れを保ちながら翻訳を進めます。この方式により、会話中の不自然な空白を最小限に抑えられます。また、騒音の多い環境でも翻訳精度が落ちにくいノイズ耐性も備えているため、工場やイベント会場など現実の利用環境でも動作します。
声の特徴をそのまま翻訳に反映
音声翻訳において長年の課題だったのが、翻訳後の音声が機械的で平坦になる問題です。Gemini 3.5 Live Translateは、話者の声の抑揚(イントネーション)、話すテンポ、ピッチを翻訳後の音声にも反映させます。怒りや喜びといった感情、強調したいポイントなどのニュアンスが、翻訳を介しても聞き手に伝わりやすくなります。
この機能は対話型コミュニケーションで特に重要です。会議やサポート通話など表情が見えない場面では、音声のトーンが意思疎通に大きく影響します。従来の機械翻訳に付きまとうフラットな印象を減らす取り組みとして、実用上の価値は高いといえます。
3経路での同時展開
Gemini 3.5 Live Translateは、用途に応じた3つの形で利用できます。
- Google Translate(iOS/Android):一般ユーザー向けアプリに機能を追加
- Google Meet:一部のWorkspaceユーザーを対象にプライベートプレビューとして展開
- Gemini Live API / Google AI Studio:開発者向けにパブリックプレビューとして公開
Google Meetでの展開は特に注目度が高く、これまで対応していた5言語から70言語以上に拡大します。1つの会議内で利用できる言語の組み合わせは2000以上となり、多言語メンバーが参加するグローバル会議での活用が現実的になってきました。開発者向けのGemini Live APIにより、サードパーティのサービスやアプリにも同じ翻訳機能を組み込めるようになります。

SynthIDによる安全設計
出力されるすべての翻訳音声には、GoogleのAI透かし技術「SynthID」が自動的に埋め込まれます。SynthIDは人間が知覚できない形で音声データにマーキングを行い、その音声がAIによって生成されたものであることを後から検出できる仕組みです。
音声合成技術の進歩により、特定の人物の声を模倣したフェイク音声の生成が容易になってきています。SynthIDの付与は、こうした偽情報の拡散を技術的に抑止するための対策として機能します。SynthIDはすでに画像・動画・テキストの生成AIコンテンツへの適用実績があり、音声翻訳への展開はその応用範囲をさらに広げるものです。
実用化を進めるパートナー企業
発表と並行して、複数の企業や開発ツールがGemini 3.5 Live Translateの試験的な活用を始めています。東南アジアで月間1000万件を超える音声通話を処理するGrabは、多言語対応の顧客サービス改善を見据えた導入を検討しています。エンターテインメント企業のCJ ENMも参画しており、映像コンテンツや放送分野への応用が期待されます。
通信インフラ側では、リアルタイム音声・映像アプリケーション構築に使われるLiveKit・Agora・Fishjam・Pipecatが統合パートナーとして名を連ねています。多言語音声合成の分野でも連続潜在空間を活用したTTS基盤モデルの研究が進んでいるなど、AIを活用した音声処理技術は急速に実用段階へ移行しつつあります。Gemini 3.5 Live Translateの展開は、言語の壁を超えたリアルタイムコミュニケーションが日常化するための具体的な一歩です。
