- 9BパラメータでGemini 2.5 Flashに匹敵する視覚言語性能を達成
- Omni-Flowフレームワークが視覚・音声・テキストの同時並行処理を実現
- 12GB RAM以下のエッジデバイスでリアルタイム動作が可能
従来のターン制が抱える制約
従来のマルチモーダル大規模言語モデル(MLLM)は、静的なオフライン処理からリアルタイムストリーミング対話へと進化してきました。しかし、人間レベルのマルチモーダルインタラクションには依然として大きな隔たりがあります。
最大のボトルネックは、モダリティの網羅性やレイテンシではなく、インタラクションパラダイム自体にあります。第一に、知覚と応答が交互のフェーズに分離されているため、生成中に新しい入力を取り込んでタイムリーに調整することができません。第二に、現在のモデルの多くは反応的であり、ユーザーからの明示的なリクエストにのみ応答し、進化するマルチモーダル環境でプロアクティブに行動することができません。

図1に示すように、ターン制では入力→待機→処理→出力の順次実行が必要ですが、全二重方式では視覚・音声入力・音声出力の3ストリームが共有時間軸上で同時並行処理されます。
Omni-Flowによる全二重処理の仕組み
MiniCPM-o 4.5は、リアルタイムの全二重オムニモーダルインタラクションを実現することで、これらのギャップを緩和します。視覚・聴覚・発話をリアルタイムで同時に処理できるだけでなく、ライブシーンの継続的な理解に基づいてリマインダーやコメントを発するといったプロアクティブな行動も示します。
MiniCPM-o 4.5の背後にある主要技術は、Omni-Flowという統合ストリーミングフレームワークです。Omni-Flowは、オムニモーダルの入力と出力を共有時間軸上で整列させます。この定式化により、従来のターン制インタラクションを全二重かつ時間整列されたプロセスに変換し、同時知覚と応答を可能にし、同じフレームワーク内でプロアクティブな行動を発生させることができます。

図2に示すように、視覚・音声・テキストの3つの入力がエンコーダブロックを通じてLLMバックボーンに送られ、音声デコーダとテキスト出力へと双方向に処理されます。この双方向処理が同時並行で行われることで、人間との自然な対話が可能になります。
エッジデバイスでの高効率動作
MiniCPM-o 4.5は合計9Bパラメータで構成されており、そのスケールにおいて最先端のオープンソース性能を提供します。視覚言語機能ではGemini 2.5 Flashに匹敵する性能を達成し、オムニモーダル理解ではQwen3-Omni-30B-A3Bを上回り、より優れた音声生成を実現しています。
効率的なアーキテクチャ設計と推論最適化により、このモデルは12GB RAM未満のコストでエッジデバイス上でリアルタイムの全二重オムニモーダルインタラクションを実行できます。この特性により、スマートフォンやタブレットといったモバイルデバイス上でも動作可能となり、実用的な展開が期待されます。
関連技術として、LLaDA2.0-Uniも離散拡散を用いてマルチモーダルの理解・生成・編集を統合しており、マルチモーダルLLMの統合処理アプローチとして注目されています。
まとめと今後の展望
MiniCPM-o 4.5は、Omni-Flowフレームワークを通じて、従来のターン制インタラクションから全二重リアルタイム処理へのパラダイムシフトを実現しました。9Bパラメータという比較的小規模なモデルサイズでありながら、Gemini 2.5 Flashに匹敵する性能を達成し、エッジデバイスでの動作を可能にした点は特筆すべき成果です。
今後は、プロアクティブな行動の精度向上や、さらなる低レイテンシ化が期待されます。リアルタイム全二重処理の実現により、AIアシスタントがより人間らしい自然な対話を実現し、実用的なアプリケーションへの展開が加速するでしょう。
