P2Rとは？知覚と推論を分離した2段階推論で高解像度視覚理解をSOTA達成

「知覚（証拠の特定）」と「推論（回答生成）」を明示的に切り離した2段階フレームワークP2Rを提案し、高解像度画像の細部理解を向上
役割認識型強化学習PRA-GRPOにより、最終回答の正誤信号だけで知覚フェーズと推論フェーズを交互に最適化できる設計
4BモデルでV-Star 93.2%・HR-Bench-4K 81.9%のSOTA性能を達成し、コードはGitHubで公開済み

研究の背景

人間は複雑な画像を見るとき、まず「どこに注目すべきか」を判断し、その後「何を意味するか」を解釈します。しかし従来のマルチモーダルLLM（大規模言語モデルと視覚処理を組み合わせたモデル）は、この2つのステップを一括で処理してきました。そのため、高解像度画像の細かな視覚手がかりを見逃しやすいという弱点があったのです。

先行研究では、画像の一部を切り出したり検索で補完したりして局所的な証拠を補う試みが行われてきました。しかしこれらの手法は「知覚」と「推論」を明確に区別せず、一体的に処理する設計です。どちらの工程でエラーが生じているかを特定しにくく、改善の余地が残されていました。

図1: P2Rの着想。従来手法は切り出しや検索で局所証拠を注入するが、知覚と推論を明示的には分離しない。P2Rは両フェーズを切り離した「知覚から推論へ」のパラダイムを採用する

P2Rフレームワークの仕組み

本研究が提案するP2R（Perceive-to-Reason）は、細粒度（きめ細かな）視覚推論を2段階で構成するフレームワークです。第1段階の「知覚フェーズ」では、質問に関連する証拠を含む領域をバウンディングボックス（矩形の枠）として特定します。第2段階の「推論フェーズ」では、切り出した局所領域と注釈付きの元画像を同時に参照しながら最終的な回答を生成する構造になっています。

この設計の核心は、両フェーズでモデルのパラメータを共有している点にあります。専用のモジュールを追加するのではなく、同一モデルが「知覚者」と「推論者」という2つの役割を切り替えて動作する仕組みです。推論時の計算コストを大幅に増やさずに精度を向上できるため、実用的なアーキテクチャといえるでしょう。

図2: P2Rの全体像。(a) 2段階推論パイプラインの概要。(b) 細粒度視覚推論ベンチマークでの性能比較。P2RはすべてのスケールでベースモデルのSOTA性能を上回る

PRA-GRPOによる学習

2段階フレームワークを有効に機能させるには、知覚フェーズと推論フェーズの両方を適切に学習させる必要があります。一般的な強化学習では、「どちらのフェーズが誤りの原因か」を区別する信号を得るのが難しく、学習が不安定になりがちでした。この課題を解消するために提案されたのが、PRA-GRPO（Perception-Reasoning Alternating GRPO）です。

学習は「知覚フェーズの最適化」と「推論フェーズの最適化」を交互に繰り返す形で進みます。各フェーズでは片方の役割のみをGRPO（グループ相対方策最適化）で更新し、もう一方のパラメータを凍結しておく仕組みです。最終的な回答の正誤という単純な監視信号から、役割ごとの学習信号を生成できる点が大きな特徴といえます。

図3: PRA-GRPOの全体像。共有パラメータのもと知覚フェーズと推論フェーズを交互に学習する。各フェーズで片方の役割をGRPOで最適化し、もう一方は凍結される

実験結果

P2Rの有効性は複数の高解像度視覚ベンチマークで検証されました。Qwen3-VL（4B）をベースにしたP2R-4Bは、V-Starで93.2%、HR-Bench-4Kで81.9%、HR-Bench-8Kで80.5%を達成し、いずれもSOTA（最高水準）となっています。

4Bパラメータという比較的小さなモデルでこれだけの性能を実現している点は見逃せません。推論を潜在空間で効率化するアプローチとは対照的に、P2Rは推論プロセスの構造自体を見直すことで精度を引き上げる手法を採用しています。アブレーション実験では、知覚フェーズのみ・推論フェーズのみで学習した場合と比較して、両フェーズを交互に学習するPRA-GRPOが最も高い精度を示しました。