IBM Granite Embedding R2公開 — 多言語検索でLongEmbed世界1位

IBM GraniteのMultilingual R2は97Mと311Mの2サイズ。311Mは前世代比+13.0ポイントでMTEB多言語検索2位、LongEmbedベンチマーク世界1位を達成した
アーキテクチャをXLM-RoBERTaからModernBERTに刷新し、32Kトークンの長コンテキストに対応。LongEmbedで前世代比+34.0ポイントという大幅な改善を記録した
Apache 2.0ライセンスで商用利用可能。200言語超・52言語の強化サポートを備え、Sentence Transformers / LangChain / LlamaIndex など主要フレームワークと統合済みで即時導入できる

2モデルの概要と仕様

IBMは2026年5月、多言語埋め込みモデル「Granite Embedding Multilingual R2」を公開しました。97Mパラメータと311Mパラメータの2サイズ展開で、いずれもApache 2.0ライセンスのもと無償で商用利用できます。

97Mモデルはアクティブパラメータが28M、埋め込み次元384で、NVIDIA H100での推論スループットは毎秒2,500件超を実現します。311Mモデルはアクティブパラメータ110M、埋め込み次元768でより高精度な検索が求められる用途に対応します。両モデルとも32,768トークンのコンテキスト長と200言語以上への対応という共通仕様を持ちます。

ModernBERTへのアーキテクチャ刷新

前世代のR1がXLM-RoBERTaをベースとしていたのに対し、R2ではModernBERTを採用しました。交互注意機構とRotary位置埋め込み（RoPE）の組み合わせにより、長シーケンスの計算効率を高めながら32Kトークンの広いコンテキスト窓を実現しています。Flash Attention 2.0もサポートされています。

このアーキテクチャ変更の効果は長文書の検索性能に如実に表れています。長文書検索を評価するLongEmbedベンチマークでは311Mが71.7点で世界1位を獲得し、前世代からの改善幅は+34.0ポイントに達しました。多言語検索の標準指標であるMTEB多言語スコアでも311Mが65.2点で世界2位、97Mは60.3点で前世代比+12.2ポイントの向上を達成しています。

図1: 主要ベンチマークにおけるR2の性能比較。LongEmbedで311Mが世界1位を記録

311Mのマトリョーシカ埋め込み

311Mモデルはマトリョーシカ表現学習（Matryoshka Representation Learning）を採用しており、ベクトル次元を768から512、384、256、128まで段階的に削減できます。512次元に落とした場合のMTEB多言語スコアの低下は0.2ポイントにとどまり、256次元では0.5ポイントの低下でストレージを3分の1に削減できます。

128次元まで圧縮してもフル次元の性能の約97%を保持できるため、メモリ制約のある環境や大規模なベクトルデータベース運用でのコスト削減に直結します。次元の選択はSentence Transformersのtruncate_dim引数で実行時に指定でき、再学習は不要です。

訓練手法と品質管理

311Mモデルは複数段階の訓練パイプラインで構築されています。Granite 3.3とMistral v0.2を教師モデルとする知識蒸留を行い、52言語とプログラミング言語9種の検索ペアで対比的微調整を実施後、異なる訓練段階のチェックポイントをモデルマージングで統合するという手順です。97MモデルはGranite 4.1 8BとMistral Instructを教師とした知識蒸留で学習されています。

訓練データにはIBM独自のGneissWebと公開データセットを使用しています。MS-MARCOなど非商用ライセンスのデータは意図的に除外されており、品質フィルタリング、重複排除、個人データリスク評価を経た企業向けガバナンス体制が整備されています。商用サービスへの組み込みにおけるライセンスリスクを排除できる点は、オープンソースとしての大きな利点といえます。

RAGシステムへの統合方法

Sentence Transformersを使った基本的な実装は数行のコードで完結します。SentenceTransformer("ibm-granite/granite-embedding-97m-multilingual-r2")でモデルを読み込み、encode()でクエリとパッセージをそれぞれベクトル化するだけです。LangChainやLlamaIndexの統合ラッパーも提供されており、既存のRAGパイプラインへの組み込みも容易です。

ベクトルデータベースとの連携ではMilvus、Weaviate、Chromaといった主要製品との統合コードが公式に提供されています。CPU最適化が必要な場面向けにONNXおよびOpenVINO形式も用意されており、GPU非搭載の環境でも実用的な速度で動作します。また、vLLMのエンベッディングエンドポイントやOllama経由でのGGUF変換にも対応しています。LLMに外部知識を付加するアプローチとしてδ-memのような軽量オンラインメモリ機構と組み合わせると、検索と記憶の両面からLLMの知識補完を強化できます。

日本語を含む多言語対応の範囲

強化サポート対象の52言語には日本語、中国語、韓国語が含まれており、東アジア言語での検索精度が特に重視されています。クロスリンガル検索を評価するBelebeleベンチマークでは311Mが66.5点、MLQAでは67.1点を記録し、前世代から4ポイント以上の改善を達成しました。

多言語サービスや社内文書の横断検索など、複数言語が混在するデータセットを扱う用途でも一貫した品質が期待できます。エッジへの配置やリソース制約が厳しい場面では97Mモデルが、精度を最優先する場面では311Mモデルが推奨構成となります。モデルはHugging Faceのibm-graniteリポジトリから取得でき、技術詳細はarXiv:2605.13521に掲載されています。