- 強化学習で埋め込みモデルの推論を最適化するEmbed-RLフレームワークを提案し、MMEB-V2ベンチマークで既存手法を3.6ポイント上回るスコア68.1を達成
- 画像のバウンディングボックスや動画のキーフレームなど、マルチモーダルな手がかりを明示的に抽出する「Traceability CoT」推論を導入
- 7Bパラメータの競合モデルに対し、4Bパラメータかつ少ないデータ量で上回る性能を実現し、限られた計算資源でも高い効果を発揮
研究の背景
画像やテキスト、動画といった異なるモダリティ(情報の種類)のデータを共通のベクトル空間に変換する「マルチモーダル埋め込み」は、検索やクロスモーダル理解において重要な技術として注目を集めています。たとえば「赤い車が走っている画像」というテキストクエリに対して、最も関連性の高い画像を検索するようなタスクで活用されており、その性能向上は実用上の大きな課題となっています。
近年、Chain-of-Thought(CoT)推論を埋め込みモデルに組み込む手法が登場しました。UME-R1やReasonIRといった先駆的研究は、クエリの意味をより深く理解するためにテキストベースの推論を活用しようとするものです。しかし、これらの手法にはいくつかの限界がありました。第一に、推論がテキストのみに依存しているため、画像中の空間的な位置関係や動画の時間的変化といった視覚的手がかりを十分に活用できていません。第二に、推論プロセスが検索タスクに最適化されておらず、冗長な情報を含みがちだという問題もあります。
こうした課題を解決するために、清華大学の研究チームは強化学習(RL)を活用した新しいフレームワーク「Embed-RL」を提案しました。埋め込みモデル自体が推論プロセスを監督し、検索に最適化された推論を自動的に学習するというユニークなアプローチを採用しています。
提案手法
Embed-RLは「Reasoner(推論器)」と「Embedder(埋め込み器)」の2つのモジュールを分離した構成を取ります。まずEmbedderをコントラスト学習(類似したペアを近づけ、異なるペアを遠ざける学習)で訓練し、その後Embedderを凍結した状態でReasonerを強化学習により最適化するという2段階のパイプラインです。

この仕組みの核となるのがEmbedder-guided RL(EG-RL)です。凍結されたEmbedderが安定した報酬シグナルを提供することで、Reasonerの推論品質を評価・改善していきます。報酬は3種類設計されており、T-CoTのフォーマット遵守を判定する「Format Reward」、検索精度と類似度マージンで評価する「Outcome Reward」、そして独立したVLM(Vision-Language Model)による推論品質の比較評価「Process Reward」を組み合わせて最適化を行います。
もう一つの重要な貢献がTraceability CoT(T-CoT)と呼ばれる新しい推論形式でしょう。従来のCoTがテキストのみで推論を展開するのに対し、T-CoTは画像のバウンディングボックス(物体の位置を囲む矩形座標)や動画のキーフレームといったマルチモーダルな証拠を明示的に抽出します。具体的には、<thinking>(モダリティ固有の手がかり抽出)、<rethink>(検索に関連する情報への絞り込み)、<answer>(核心情報の要約)の3段階で構成されており、冗長な情報を排除しながら検索に本当に必要な特徴を効率的に捉えることが可能になっています。
実験結果
Embed-RLの性能は、画像・動画・文書を含む78タスクで構成されるMMEB-V2ベンチマークで検証されました。主要な結果を以下の表にまとめます。
モデル | パラメータ数 | 総合スコア |
|---|---|---|
Embed-RL-4B | 4B | 68.1 |
Embed-RL-2B | 2B | 66.8 |
UME-R1-7B | 7B | 64.5 |
VLM2Vec-V2-7B | 7B | 61.2 |
CAFe-7B | 7B | 60.6 |
Embed-RL-4Bは、7Bパラメータを持つ既存の先駆的手法UME-R1を3.6ポイント上回り、総合スコア68.1を達成しました。特に画像グラウンディングタスクではスコア91.4と圧倒的な性能を示しています。パラメータ数が約半分であるにもかかわらず、より大規模なモデルを凌駕している点は注目に値するでしょう。
UVRBベンチマーク(動画検索評価)でも優れた結果が確認されており、特に長文脈の動画検索ではスコア86.1を記録しました。粗粒度・細粒度の検索においても安定した性能を発揮しています。
アブレーション実験(各要素を除去して効果を検証する分析)からは、T-CoTの重要性が特に際立っていました。T-CoTを完全に除去して生の入力のみを使用した場合、スコアは60.2まで6.6ポイントも低下しています。また、Composition-RL: 簡単な問題を組み合わせてLLMの推論力を伸ばす強化学習フレームワークでも示されているように、強化学習による推論最適化は様々なタスクで効果を発揮しますが、本研究のEG-RL除去でも1.5ポイントの性能低下が確認され、埋め込みタスクに特化した報酬設計の有効性が実証されています。

さらに興味深いのは、訓練規模の違いです。Embed-RLはバッチサイズ256・訓練データ約19,000サンプルという比較的小規模な設定で学習されているのに対し、競合手法のUME-R1はバッチサイズ1,024、TTEはバッチサイズ8,192で訓練されています。研究チームは、訓練規模をスケールアップすればさらなる性能向上が期待できると述べています。
まとめと今後の展望
Embed-RLは、強化学習をマルチモーダル埋め込み学習に適用するという新しいアプローチで、3つの重要な成果を達成しました。第一に、Embedder自体が推論プロセスを監督するEG-RLフレームワークにより、検索タスクに最適化された推論の自動学習を実現しています。第二に、T-CoTによってテキストだけでなく視覚的・時間的な手がかりを明示的に活用する推論が可能となりました。第三に、限られた計算資源でも既存の大規模モデルを上回る性能を達成できることを示しています。
一方で、いくつかの課題も残されています。T-CoTの推論過程が追加されることで推論時間が増加する点や、現在の評価が検索タスクに限定されている点は今後の検討事項でしょう。また、より多様なモダリティ(音声や3Dデータなど)への拡張可能性も興味深い研究方向です。
コードはGitHubで公開されており、研究者やエンジニアが手法を再現・応用できる環境が整っています。マルチモーダルAIの検索精度向上に向けた実用的な一歩として、今後の発展が期待される研究といえるでしょう。


