- 5つの専門エージェントが協調し、意図解析から品質検証まで役割分担。アーキテクチャ変更なしで既存手法を最大39ポイント上回る性能を達成
- 科学図表生成の標準ベンチマークCraftBenchを公開。279サンプルで3図表タイプと4入力条件を網羅し、汎用的な評価基盤を提供
- ラスター画像を編集可能なSVGに変換するCraftEditorは全ベースラインを超えるスコア8.04/10を達成し、図表の再利用性を向上
研究の背景と課題
科学論文における図表は、複雑な実験結果や概念を読者に伝える重要な手段です。しかし研究者が高品質な図表を作成するには、デザインツールの習熟と多大な時間が必要で、これが研究コミュニケーションの障壁になっています。
近年の画像生成モデルの進歩により、テキストから図表を自動生成する試みが増えています。ところが既存のシステムには大きな制約があります。特定の図表タイプにしか対応していなかったり、テキスト・スケッチ・参照画像といった複数の入力形式を統合的に扱えなかったりします。また、生成した図表を後から編集できる形式で出力する仕組みも欠けていました。SVGやHTMLコードを中間表現として活用するアプローチも研究されていますが、科学図表に特化した汎用的な評価基準そのものも存在しない状況でした。
Crafterの全体設計
「Crafter」は、ハーネス(harness)と呼ばれる統合レイヤーを採用した多エージェント型フレームワークです。個々の画像生成モデル(バックボーン)の内部構造を一切変えることなく、複数の専門エージェントが役割分担して図表生成を行います。この設計により、バックボーンを差し替えるだけで異なる生成モデルにも対応できます。
Crafterが図表を「離散的な意味コンポーネントの構造的な組み合わせ」として捉える点が特徴です。凡例、軸ラベル、データビジュアライゼーションといった各要素を独立して管理することで、学術図・ポスター・インフォグラフィックなど複数の図表タイプに対して柔軟に対応できます。

5つのエージェントの役割
Crafterは6つの役割を担うエージェントで構成されています。それぞれが特定の処理を受け持ち、共有される「図表仕様書(𝒮)」を中心に反復的に協調します。
- Intent Reasoner(意図推論):入力テキストや文脈から図表の目的と必要な視覚要素を分析し、初期仕様𝒮₀を生成する
- Plan Generator(計画生成):多様性を重視したK個の視覚フレーミング候補を並列生成する(K=3で最適性能)
- Image-Gen Backend(画像生成):各候補計画をもとに実際の図表をレンダリングする
- Critic(評論):内容正確性・レイアウト一貫性・テキスト判読性など6軸で評価し、具体的な修正指示を出す
- Specification Refiner(仕様精緻化):評論結果を「型付き編集」に変換し、仕様書を矛盾なく更新する
- Convergence Judge(収束判定):受理・継続精緻化・最良状態への復帰を判断する
アブレーション実験では、計画候補探索を省略すると-8.56ポイント、仕様精緻化レイヤーを省略すると-8.90ポイントの低下が確認されました。「自由文の修正を積み重ねると矛盾が生じて忠実性が暗黙的に下がる」という問題を型付き編集で解消した点が、性能向上の主要因です。
CraftEditorの仕組み
Crafterが生成したラスター画像(PNG等)を編集可能なSVGに変換するのが「CraftEditor」です。研究者が図表を後から修正・再利用できるようにする目的で開発されました。

CraftEditorは同じハーネスパターンを3フェーズで適用します。まず「抽出」フェーズでVLM(視覚言語モデル)が不要な要素を特定し、キャンバスを最大3ラウンドで整理します。次の「処理」フェーズでは各視覚要素にキャプションを付け、ベクター形式またはラスター形式に分類します。最後の「構成」フェーズでSVGの骨格を生成し、VLMとプログラム的チェッカーを組み合わせたハイブリッド評論で最大4ラウンドの精緻化を行います。反復的な構成処理を省略した場合、スコアが-2.15ポイント低下することもアブレーションで確認されています。
CraftBenchと実験結果
科学図表生成の標準的な評価指標として「CraftBench」も同時公開されました。279サンプルを収録し、学術図・ポスター・インフォグラフィックの3図表タイプと、テキスト→画像・マスク補完・キー要素構成・スケッチ条件付けの4入力条件を網羅しています。

実験結果では、CraftBench上でCrafterが52.30%のスコアを達成し、同じバックボーンを使用したPaperBanana(29.00%)を22.20ポイント上回りました。PaperBanana-Bench上では50.34%を記録し、単体の生成モデル(11.13%)と比較して39.21ポイントの大幅な改善を示しています。CraftEditorについても平均スコア8.04/10を達成し、比較対象のAutoFigure-Edit(6.91)やEdit-Banana(3.69)を大きく上回っています。
まとめと今後の展望
Crafterは、既存の生成モデルをそのまま活用しながら多エージェントのハーネス設計で品質を大幅に向上させることを実証しました。アーキテクチャ変更不要という特徴は、将来の高性能バックボーンへの移行も容易にします。
論文内では失敗ケースも公開されており、複数パネルの欠落やスケッチの文字通りの解釈、要素の不一致といった課題が残っています。複雑な多パネル構成への対応や抽象的なスケッチ解釈の向上が今後の研究課題です。コードとCraftBenchはいずれも公開済みで、AI for Scienceの基盤として広く活用できます。
