NEO-ovとは？外部ビジョンエンコーダ不要のネイティブ統合マルチモーダルモデル

外部ビジョンエンコーダとアダプタを完全に排除し、ピクセルとテキストの対応をエンドツーエンドで学習するネイティブアーキテクチャを提案
空間・時間位置をT/H/W次元で統一的にエンコードするNative RoPE（NRoPE）により、単一モデルで1枚画像・複数画像・動画を横断処理
8Bモデルが空間知能ベンチマーク（MindCube）で90.0を達成し、モジュラー手法（85.7）を上回る性能を実証

研究の背景

視覚言語モデル（VLM）の主流設計は、CLIPやSigLIPなどの事前学習済みビジョンエンコーダと言語モデルを組み合わせる「モジュラー構成」です。この構成はベンチマーク性能に優れますが、視覚側と言語側が独立したコンポーネントとして存在するため、両者の特徴表現を同一の目的関数で一貫して最適化することが難しいという構造的な制約があります。

特にマルチ画像や動画の時空間推論では、外部エンコーダが静止画向けに設計されていることが足かせになりやすく、空間的・時間的な文脈をまたぐ細粒度の認識が苦手な場面があります。NEO-ovはこの課題に正面から向き合い、あらゆる外部モジュールを排除したネイティブなマルチモーダルアーキテクチャを提案しています。

NEO-ovのアーキテクチャ

図1: NEO-ovの全体構造。画像・動画・テキストをそれぞれパッチ埋め込みと単語埋め込みでトークン列に変換し、Pre-Bufferとデコーダのみのバックボーンで一括処理する

NEO-ovのアーキテクチャは3つの要素で構成されます。まず「パッチ埋め込み層」が画像をストライド16の畳み込みで視覚トークンに変換します。次に「Pre-Buffer」と呼ぶTransformerブロック群が、視覚トークンを言語バックボーンに渡す前に前処理します。最後に、デコーダのみの単一バックボーンが視覚トークンとテキストトークンを統合的に処理します。

Pre-Bufferの層数はモデルサイズによって異なり、2Bモデル（Qwen3-1.7Bバックボーン使用）では12層、8Bモデル（Qwen3-8Bバックボーン使用）では6層となっています。これは設計上の意図によるもので、より小さなバックボーンを持つ2Bモデルは視覚特徴の変換に多くの前処理層を必要とする一方、8Bモデルは大きく表現力豊かなバックボーンを持つため、少ない前処理層でも十分な視覚表現が構築できます。

Native RoPEによる時空間統合

図2: Native RoPEと空間時間Attentionの概要。画像内の双方向Attentionとテキスト・動画フレーム間の因果的依存をTHW対応の周波数・チャネル割り当てで統一的にモデル化する

位置情報の表現に使われる「Native Rotary Position Embeddings（NRoPE）」は、通常のテキスト専用RoPEを時間（T）・高さ（H）・幅（W）の3次元に拡張したものです。テキストトークンにはH=0・W=0が割り当てられ、画像・動画トークンは共有の時間インデックス内でH・Wにより空間位置をエンコードします。これにより1つの位置エンコーディング体系がテキストと視覚の両方を統一的に扱えます。

注目すべき設計として、画像内では双方向Attention、テキストや動画フレーム間では因果的（左から右への）Attentionを使い分ける統合Attentionマスクを採用しています。1枚画像の空間推論、複数画像の比較理解、動画の時系列認識がすべて同一モデル内で処理できるのは、このNRoPEと統合Attentionマスクの組み合わせによるものです。

3段階の学習レシピ

NEO-ovの学習は3段階で行われます。第1段階（アライメント）では約2000万件の画像テキストペアを使い、Pre-Bufferとバックボーンを対応づけながら、Qwen3から引き継いだ言語能力を維持したまま視覚認識の基礎を構築します。

第2段階では約6000万件の多様な画像・動画データで空間時間推論を強化し、第3段階では約600万件の高品質な指示チューニングデータで細粒度の視覚認識と時間的ダイナミクスの理解を仕上げます。段階的にデータの難度と多様性を高めることで、ピクセルから直接学習する不安定さを抑えながら安定した収束を実現しています。

実験結果と性能比較

図4: Pre-Bufferと既存ビジョンエンコーダの多様なタスクにおける比較。NEO-ovのPre-Bufferが外部エンコーダに近い性能をネイティブ設計で達成することを示す

8Bモデル（Qwen3-8Bバックボーン）の主要ベンチマーク結果を以下に示します。

ベンチマーク	NEO-ov（8B）	比較モジュラーモデル
MMBench	67.8	InternVL3.5: 69.3
VideoMME	67.4	Qwen3-VL: 71.4
MindCube（空間知能）	90.0	SenseNova-SI: 85.7
DocVQA	78.5	—

空間知能ベンチマーク（MindCube）ではモジュラー手法を上回る90.0を達成しており、時空間的な視覚推論においてネイティブ設計の優位性が現れています。MMBenchやVideoMMEでもモジュラー手法との差は数ポイント以内に収まっており、「エンコーダなしでは性能が出ない」という前提を覆す結果です。LLaVA-OneVision-2のような動画特化モジュラーモデルと比べると、OCRを多用するドキュメント理解タスクでは依然として差があることも論文内で正直に記載されており、今後の改善課題として示されています。

まとめと今後の展望

NEO-ovは、大規模実証を通じて「ネイティブ設計でも競争力のある性能が達成できる」ことを示した研究です。2BモデルではPre-Bufferを12層と多めに設けて小さなバックボーンを補完し、8BモデルではPre-Bufferを6層に絞りつつも強力なQwen3-8Bバックボーンで性能を確保する、サイズに応じた設計の最適化が行われています。

現時点ではOCR集約的なタスクで事前学習済みエンコーダを持つモジュラー手法に及ばない場面がありますが、エンドツーエンドの学習設計はパラメータの共有最適化や将来的なスケールアップに有利に働く可能性があります。コードと学習済みモデルはGitHubで公開されており、マルチモーダル基盤モデルのアーキテクチャ設計を再考する研究として今後の発展が注目されます。