- 専用LottieトークナイザーがJSON形式をコマンド+パラメータ列に変換し、事前学習済みVLM(Qwen2.5-VL)と接続することでテキスト・画像・動画からアニメーション生成を実現
- 200万件のアノテーション付きデータセット「MMLottie-2M」と評価ベンチマーク「MMLottie-Bench」を独自構築し、GitHubとHuggingFaceで完全公開
- CVPR 2026採択論文でコード・モデル・データセットをすべて公開済み、HuggingFace Dailyで118 upvotesを獲得した注目度の高い研究
Lottieアニメーションとは
スマートフォンアプリやWebサービスで見かける滑らかなアイコンアニメーションや読み込み画面の多くは、Lottie形式で実装されています。LottieはAdobe After Effectsで制作したアニメーションをJSON形式にエクスポートする軽量フォーマットで、Airbnb社が開発してオープンソース化しました。ベクターグラフィックスをベースにしているため、どんな画面サイズでも画質を損なわずに表示できます。
しかし、高品質なLottieアニメーションの制作にはAfter Effectsの専門知識とデザインスキルが必要です。「テキストで指示するだけで目的のアニメーションを生成できないか」というニーズは大きいものの、従来のAI手法では実現が困難でした。
JSONの構造が生む課題
既存のLarge Language Model(LLM)やVision Language Model(VLM)に対して、Lottie JSONを直接生成させようとすると大きな壁があります。生のLottie JSONファイルには大量の不変的な構造メタデータとフォーマットトークンが含まれており、モデルが意味のあるアニメーションパターンを学習する妨げとなります。
単純な図形が揺れるアニメーションであっても、JSONには座標値・イージング関数・フレームレート・レイヤー構造など多数のネストしたオブジェクトが含まれます。この冗長な構造が、AIが「動き」の本質を学習することを難しくしていました。
Lottieトークナイザーの設計
OmniLottieの中核となるのは独自設計のLottieトークナイザーです。このトークナイザーはJSONファイルを、形状定義・アニメーション関数・制御パラメータを表す「コマンド+パラメータ列」という構造化シーケンスに変換します。この変換によって、AIが理解しやすい形式でアニメーションの意味的な内容だけを抽出できます。
変換後のシーケンスは、事前学習済みVLMであるQwen2.5-VLに入力されます。モデルはテキスト・画像・動画を混在させたマルチモーダルな指示を受け取り、対応するLottie形式のアニメーションを出力します。オムニモーダルLLMの推論能力を活用するアプローチと同様に、事前学習済みモデルの表現力を土台とすることで、少ないデータでも高品質な出力を実現しています。

MMLottie-2Mとベンチマーク
モデルの学習と評価には専用のデータセットが不可欠です。本研究ではプロデザイナーが制作したベクターアニメーション200万件を収集し、テキストおよび視覚アノテーションを付与したMMLottie-2Mを構築しました。既存の研究と比べて桁違いに大きなスケールで、多様なスタイルとモーションパターンを網羅しています。
評価用には実際のLottieアニメーション450件と合成サンプル450件の計900件から成るベンチマーク「MMLottie-Bench」を整備しています。このベンチマークにより、生成されたアニメーションの品質と指示への忠実度を定量的に測定できます。

実験結果
広範な実験によって、OmniLottieが生成するアニメーションはマルチモーダルな人間の指示に意味的に一致し、高い視覚的品質を持つことが確認されました。テキストによる指示だけでなく、参照画像や動画を組み合わせた複合的な指示にも対応します。
本研究のコード・モデル・データセットはすべてGitHubとHuggingFaceで公開されており、研究者が結果を再現しやすい環境が整えられています。CVPR 2026への採択は、コンピュータビジョン分野でのその貢献が認められたことを示しています。
まとめと今後の展望
OmniLottieは、Lottieトークナイザーと事前学習済みVLMの組み合わせによって、テキスト・画像・動画からのベクターアニメーション自動生成を実現しました。200万件規模のデータセットとベンチマークの公開は、この研究分野の今後の発展を後押しする重要な基盤となります。
UI/UXデザインの自動化という実用的な応用先を持ち、デザイナーの作業効率を大幅に改善できる可能性があります。今後はより複雑なアニメーションへの対応や、他のベクター形式への拡張が課題になるでしょう。

