MRPOとは？医療VQAの連鎖推論エラーを指数ペナルティで抑制するRL新手法

初期推論ステップのエラーが後続全体に連鎖する「連鎖失敗」を定量化し、初期エラー率を64.0%から13.0%に削減
ステップ位置に比例した指数ペナルティにより、Qwen3-VL-8BがHuatuoGPT-Vision-34Bを2.79ポイント上回る高効率化を達成
3種のバックボーン・複数データセットで安定した改善を示し、医療以外の段階的推論タスク全般への応用も期待される

研究の背景

医療画像VQA（Visual Question Answering）は、「このX線にどのような所見がありますか」といった問いに対してAIが推論を組み立てて回答するタスクです。近年はマルチモーダルLLM（テキストと画像を同時に扱う大規模言語モデル）の発展により精度が向上してきましたが、学習パイプラインには根本的な課題が残っていました。

従来の強化学習手法は最終回答の正否のみを学習の信号（報酬）として使用します。これは「疎なクレジット割り当て（sparse credit assignment）」問題と呼ばれ、どの推論ステップが誤りを招いたかをモデルが特定できないため、改善が最終段階に偏る傾向があります。ソウル大学の研究チームはこの課題を掘り下げ、問題の本質が「推論チェーンの初期ステップのエラー」にあることを突き止めました。

連鎖失敗の実態

研究チームはまず、医療VQAにおける推論失敗のパターンを体系的に調査しました。推論チェーン全体のどの位置で最初のエラーが発生したかを示す指標として「FFP（First Failure Point: 初回失敗位置）」を定義し、ベースラインモデルの推論パスを分析しました。

図1: FFP段階別のサンプル分布。Early（0.0〜0.4）、Mid（0.4〜0.7）、Late-Stage（0.7〜1.0）に分類。ベースラインでは64.0%がEarlyに集中しているが、MRPOではその割合が13.0%に低下し、エラー発生位置が後段へシフトしている。

分析の結果、ベースラインモデルでは64.0%のケースで推論チェーンの初期段階（Early: 全体の前40%以内）にエラーが発生していました。初期にエラーが起きると、後続のすべてのステップがその誤りを前提として積み上がるため、修正が困難になる「連鎖失敗」が生じます。さらに「FAR（Failure Accumulation Rate: 失敗蓄積率）」という指標の分析から、初期エラーほど後段への波及が大きいことが定量的に確認されました。

MRPOの設計

この知見をもとに提案されたのが、MRPO（Medical Reasoning-aware Policy Optimization）です。GRPOというRL手法をベースに、「どのステップが失敗したか」「そのステップは推論チェーンの何番目か」という2つの情報を報酬設計に組み込んでいます。

図2: MRPOのアルゴリズム概要。ポリシーモデルが複数の推論パスを生成し、回答報酬・ステップ単位の推論プロセス報酬・長さ報酬の3要素で評価する。最終回答が誤りと判定された場合、早期ステップに指数的に大きなペナルティを付与し、連鎖の根本を修正する。

報酬は3つの要素で構成されます。回答報酬は字面一致（ROUGE-1、BLEU-1）と医療ドメイン特化のBERTScoreによる意味的類似度を組み合わせて評価します。プロセス報酬は各推論ステップが「正解の根拠と整合しているか」「正しい結論を導いているか」の2基準でバイナリ評価します。長さ報酬は推論ステップ数が4〜10の適切な範囲に収まるよう線形ペナルティを付与し、過不足のない推論を促します。

核心となるのが指数ペナルティの設計です。最終回答が誤りかつあるステップが無効と判定された場合、そのステップのトークンにはステップ位置 k と総ステップ数 K を用いた式 −exp(1 − (k−1)/(K−1)) に比例したペナルティが付与されます。推論チェーンの最初に近いステップほど大きなペナルティを受けるため、連鎖失敗の根本となる早期エラーの修正に学習が集中する仕組みです。

実験結果

Qwen2.5-VL-7B、Qwen3-VL-8B、InternVL3-8Bの3モデルに対して、医療VQAの6データセット（VQA-RAD、SLAKE、PathVQAほか）で評価を実施しました。GRPOを改善する視覚推論手法と同様の比較軸で、ベースラインのGRPOや教師ありファインチューニングを上回る精度を全バックボーンで確認しています。

Qwen3-VL-8B-InstructにMRPOを適用した場合の平均スコアは28.94で、GRPOの28.69を上回りました。さらに、パラメータ数が4倍以上大きいHuatuoGPT-Vision-34B（26.15）を2.79ポイント上回る結果も示されています。InternVL3-8BではGRPO比で1.10ポイントの改善を記録し、モデルの種類を問わず安定した向上を確認しました。

図3: FFPビン別の失敗蓄積率（FAR）比較。MRPOは全区間でFARが最も低く、連鎖失敗の抑制効果が数値でも裏付けられている。

FFP分析では、初期段階（Early）のエラー率がベースラインの64.0%からMRPOでは13.0%に低下しました。一方、後段（Late-Stage）の割合は9.6%から47.0%に増加しており、エラーが連鎖する前の段階での失敗割合が下がり、問題が後段に移ったことを示しています。FARの比較でもMRPOは全FFP区間で最低値を記録し、連鎖失敗の抑制効果が定量的に確認されました。人手評価でもCohen's κ = 0.717の高い一致率が得られており、評価の信頼性も担保されています。