PP-OCRv6: わずか34Mパラメータで235B超の大規模VLMを超えた軽量OCRシステム

RepDWConv による構造的再パラメータ化と MetaFormer 設計で、前世代比で検出 Hmean +4.6%・認識精度 +5.1% を達成
34.5M パラメータの medium モデルが Qwen3-VL-235B（235B）・GPT-5.5・Gemini-3.1-Pro を検出・認識の両面で上回る
1.5M パラメータの tiny モデルは CPU 推論で前世代比 3.9 倍の高速化を達成し、エッジ端末への組み込みも現実的

研究の背景

テキスト検出と認識を組み合わせた OCR（光学式文字認識）は、書類のデジタル化や情報抽出など幅広い用途で使われています。近年は GPT-5.5 や Gemini-3.1-Pro といった大規模な Vision-Language Model（VLM）が画像内のテキストを読み取れるようになり、OCR システムの代替候補として注目を集めています。

しかし VLM には実運用上の問題があります。まず、数百億のパラメータを持つモデルは推論コストが膨大で、大量の文書を高速に処理するには向きません。さらに VLM は言語的な先入観から、画像に実際には書かれていない文字に自動修正してしまう「幻覚」を起こすことがあります。こうした課題に対して、百度（Baidu）の PaddleOCR チームが提案したのが PP-OCRv6 です。1.5M から 34.5M というコンパクトなパラメータ数で、最先端の VLM を上回る精度を実現しました。

LCNetV4バックボーンの設計

PP-OCRv6 の中核は、新たに開発された LCNetV4 バックボーン（特徴抽出の基幹ネットワーク）です。設計思想のベースには「MetaFormer」と呼ばれる統一フレームワークがあります。これはネットワークのブロックを「空間方向の混合（トークンミキサー）」と「チャネル方向の混合（チャネルミキサー）」の 2 段階に明確に分ける考え方で、Transformer 系の研究から生まれたものです。

特に核心的な技術が RepDWConv（再パラメータ化深度別畳み込み）です。訓練中は 3×3・1×1・恒等変換という 3 つの並列ブランチで演算しますが、推論時には数学的に等価な単一の 3×3 畳み込みに統合します。「訓練時の豊かな受容野」と「推論時の軽量さ」を両立する構造で、速度を犠牲にせずに精度を高められます。

図1: LCNetV4 バックボーンのブロック構造。左は LCNetV3Block と LCNetV4Block の比較および RepDWConv の詳細。右は認識モード・検出モードそれぞれでの LCNetV4 構成。

モデルは tiny・small・medium の 3 サイズを用意しており、深さと幅を独立に調整することで多様なリソース制約に対応しています。

検出と認識ネックの再設計

バックボーンに加えて、テキスト検出と認識それぞれのネック（特徴変換の中間層）も大幅に刷新されています。検出側では RepLKFPN（再パラメータ化大カーネル FPN）を採用しました。従来の 3×3 畳み込みに代わり、7×7 の大きな受容野を持つカーネルを使うことで、テキスト領域の輪郭をより正確に捉えられます。また Focal Loss を Dice Loss と組み合わせることで、文字の細かい境界部分での誤判定も削減しています。

図2: PP-OCRv6 テキスト検出のアーキテクチャ。LCNetV4 バックボーク、RepLKFPN ネック、DB ヘッドで構成されるパイプラインと、学習時のみ用いる補助 DB ヘッドを示す。

認識側では EncoderWithLightSVTR（軽量テキスト認識エンコーダ）を改良しました。従来は前の特徴マップと現在の特徴を「結合（連結）」していたのを、「加算によるスキップ接続」に変更しています。パラメータ数を抑えながら、Transformer ブロックで文字間の長距離依存関係を学習できる点がポイントです。

図3: PP-OCRv6 テキスト認識のアーキテクチャ。LCNetV4 バックボーンを経て LightSVTR ネック（medium/small）または Reshape+FC（tiny）に渡り、推論時は CTC ヘッド、学習時は NRTR ヘッドも使用される。

実験結果：VLMを超える精度

社内ベンチマークでの結果は明確です。medium モデル（約 34.5M パラメータ）はテキスト検出の Hmean（精度と再現率の調和平均）で 86.2% を達成し、前世代の PP-OCRv5 server より 4.6 ポイント改善しました。認識精度は 83.2% で、5.1 ポイント上回っています。

図4: PP-OCRv6・PP-OCRv5・各種 VLM の性能比較。左はテキスト検出の平均 Hmean（%）、右はテキスト認識の加重平均精度（%）。

比較対象の VLM との差は顕著です。Qwen3-VL-235B（2350 億パラメータ）の検出 Hmean は 38.3%、認識精度は 74.9%。Gemini-3.1-Pro の検出 Hmean は 46.8%、認識精度は 71.4%。PP-OCRv6 medium は約 6800 分の 1 のパラメータ数でこれらを大きく上回っています。tiny モデル（1.5M パラメータ）は Intel Xeon CPU 上での推論速度が前世代比 3.9 倍に達しており、エッジ端末やオンプレミス環境への組み込みも実現可能です。

VLMが苦手な幻覚とPP-OCRv6の優位性

VLM の弱点として実運用で問題になるのが「幻覚」です。VLM は学習した言語パターンをもとに、画像に実際には書かれていない文字を補完・修正してしまうことがあります。例えば意図的なスペルミスや繰り返し文字を含む画像に対して、VLM は「正しい」とみなした別の文字列を返してしまいます。

図5: PP-OCRv6_medium と各種 VLM の幻覚比較。非標準スペルや繰り返し文字を含む画像に対して、PP-OCRv6 は正確に再現（✓）し、MiniMax-M3・GPT-5.5・Qwen3-VL-235B・Kimi-K2.6 は誤った修正を行った（✗）例。

幻覚耐性の評価では、PP-OCRv6 medium が 93.2% の正確率を示したのに対し、Qwen3-VL-235B は 80.56% にとどまりました。看板・帳票・証明書など文字の正確な転写が求められる用途では、VLM よりも OCR 専用システムに優位性があります。

まとめと今後の展望

PP-OCRv6 は MetaFormer スタイルのブロック設計・構造的再パラメータ化・大カーネル FPN という 3 つの技術改善を組み合わせ、桁違いに小さなモデルで最先端 VLM を上回る OCR 性能を達成しました。パラメータ効率の高さは、実運用コストや電力消費の削減にも直結します。

PaddleOCR プロジェクトの系譜に属する本研究はコード公開が見込まれており、再現性も期待されます。一方で評価に使用されたベンチマークが自社製である点や、手書き文字・低解像度画像への対応は今後の課題として残ります。軽量 OCR が高精度と実用性を兼ね備えることを示した本研究は、文書処理のあり方に一石を投じるものです。