【jina-embeddings-v3】LoRAアダプターを導入し最大8192トークン処理可能に！

この論文では、多言語対応のテキスト埋め込みモデル「jina-embeddings-v3」を提案しています。特定のタスクに最適化されたLoRAアダプターを導入し、効率的に高品質な埋め込みを生成できるようになり、多言語データや長文検索タスクでのパフォーマンスが向上し、実用的な利用が可能となっています。

論文：jina-embeddings-v3: Multilingual Embeddings With Task LoRA
HuggingFace：https://huggingface.co/jinaai/jina-embeddings-v3

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。

この研究のポイントは？
背景
提案手法
実験
結論

この研究のポイントは？

本論文は、「jina-embeddings-v3」という多言語対応のテキスト埋め込みモデルを提案しています。

本研究のポイントは以下の通りです。

課題：従来の埋め込みモデルは特定タスクへの適応が難しく、長文や多言語対応が不十分
解決手法：タスクごとに最適化されたLoRAアダプターとRoPEを導入し、効率的に埋め込みを生成
ポイント①：複数のタスクで高品質な埋め込みが実現し、多言語や長文検索でも優れた性能を発揮
ポイント②：計算資源を抑えつつ、現実のアプリケーションに適したモデルが開発された

つまり、多様なタスクに対応可能で効率的な埋め込み生成が実現し、AIの実用性を大きく向上させた研究です。

背景

従来の埋め込みモデルは、特定のタスクに対するファインチューニングが必要でした。また、パラメータ数が非常に大きいため、実際のアプリケーションでの運用には課題がありました。

提案手法

この論文で提案されている「jina-embeddings-v3」は、多言語対応のテキスト埋め込みモデルで、特定のタスクに適応するLoRA（Low-Rank Adaptation）アダプターを組み込んでいます。この手法は、クエリ・ドキュメント検索、クラスタリング、分類、テキストマッチングなど、異なるタスクに対して高品質な埋め込みを生成することを目的としています。

モデルの設計には、XLM-RoBERTaモデルをベースにしており、タスクごとの埋め込み最適化が可能なアダプターを追加しています。このアダプターは、元のモデルの重みを固定したまま、新たなタスクに適応する低ランクの行列を学習させる仕組みです。このため、モデル全体のメモリ消費を抑えながら、タスクごとの埋め込み生成が可能になります。

「jina-embeddings-v3」は、長い文脈に対応するために、通常の位置エンコーディングではなくRoPE（Rotary Position Embeddings）を採用しています。そのため、最大で8192トークンまでの長いシーケンスを処理でき、長文検索や複雑な文脈理解にも対応可能です。

また、Matryoshka Representation Learningを利用することで、埋め込みの次元を1024から32まで柔軟に調整でき、性能を維持しつつコンパクトな表現を実現しています。

実験

実験は大きく分けて、以下の3つのフェーズに分けられています。

モデルの基盤となるXLM-RoBERTaの性能評価
埋め込みタスクでの比較評価
リトリーバルタスク

まず、XLM-RoBERTaの評価では、英語と多言語のタスクに対して、既存のマルチリンガルモデルであるmBERTやXLM-RoBERTaと比較されました。その結果、「jina-embeddings-v3」は、特に英語のタスクで高いスコアを記録し、多言語対応力も向上していることが確認されました。

次に、埋め込みタスクでの性能評価では、さまざまなMTEB（Multilingual Text Embedding Benchmark）タスクにおいて、モデルの分類、クラスタリング、再ランク付けなどの性能が比較されました。「jina-embeddings-v3」は、特に英語の分類と文の類似性タスクで最も高いスコアを達成し、他の最新のモデルよりも安定して高い性能を示しました。