OmniLottie：全球首个端到端多模态矢量动画生成器，文字/图片/视频一键转可编辑 Lottie

38 0

在数字设计领域，动画是灵魂，但高质量动画的制作门槛却高不可攀。现有的 AI 视频生成工具大多输出“死视频”（MP4/GIF）——无法放大、无法修改颜色、无法提取元素。而设计师钟爱的 Lottie 矢量格式，虽具备无限缩放、体积极小、可逐层编辑等优势，却因制作复杂（需 After Effects 等专业软件）而难以普及。

项目主页：https://openvglab.github.io/OmniLottie
GitHub：https://github.com/OpenVGLab/OmniLottie
模型：https://huggingface.co/OmniLottie/OmniLottie
Demo：https://huggingface.co/spaces/OmniLottie/OmniLottie

由复旦大学、StepFun、香港大学 MMLab 和昆士兰大学联合推出的 OmniLottie 作为全球首个端到端的多模态 Lottie 生成器家族，它能直接根据文字描述、参考图片或示例视频，一键生成专业级、可编辑的 Lottie 动画文件，将生成成功率从通用大模型的不足 13% 提升至 88% 以上。

OmniLottie：全球首个端到端多模态矢量动画生成器，文字/图片/视频一键转可编辑 Lottie

核心功能：多模态驱动，原生矢量输出

OmniLottie 不仅仅是一个转换器，它是一个理解运动规律的 AI 动画师：

1. 文字生成动画 (Text-to-Lottie)

输入如“一个红色的心形图标，有节奏地脉动缩放”，AI 即可理解物体形状、颜色及运动逻辑，直接生成包含完整图层信息的 Lottie JSON 文件。

2. 图文结合生成 (Text-Image-to-Lottie)

上传一张静态图（如信封图标），配合文字指令（如“摇晃并弹出蓝色内容”），AI 能让静态图“活”起来，同时完美保留原图的视觉风格。

3. 视频转动画 (Video-to-Lottie)

上传一段实拍视频（如 T 恤展示），AI 能自动提取关键动作与形态，将其转化为风格化的矢量动画。这对于将实拍素材快速转化为 App 内交互动效极具价值。

额外优势：真正的可编辑性

生成的不仅仅是视频，而是完整的工程文件。设计师可在 After Effects 中打开，随意修改颜色、调整贝塞尔曲线、替换图形元素，且文件体积通常仅几十 KB，却能渲染出 4K 画质。

五大核心优势：为何它是颠覆性的？

优势	传统方案/通用大模型	OmniLottie
输出格式	栅格视频 (MP4/GIF)，不可编辑	原生 Lottie 矢量，无限缩放，逐层可改
生成成功率	< 13% (常报错或无法渲染)	> 88%，达到实用级水平
多模态支持	单一文本或需复杂预处理	统一框架支持文本、图像、视频混合输入
语义对齐	经常画错物体或动效不符	精准控制，物体与运动准确性大幅领先
数据规模	缺乏专用高质量数据	MMLottie-2M：200 万专业标注数据集

技术揭秘：如何让 AI 学会“做动画”？

OmniLottie 的成功源于三个巧妙的架构设计：

第一招：Lottie 分词器 (Lottie Tokenizer)

——把混乱的 JSON 变成清晰的“指令集”

原始 Lottie 文件是嵌套复杂、充满冗余元数据的 JSON，AI 难以学习。OmniLottie 将其重构为线性的指令序列：

结构化表达：创建形状层 → 画圆形 → 设置填充 → 添加旋转关键帧。
效果：去除了 81% 的冗余符号，让 AI 专注于学习“动画规律”而非“背诵语法”。实验证明，引入分词器后，生成成功率从 13% 飙升至 97%。

第二招：基于 VLM 的自回归架构

——像写故事一样生成动画

基于强大的 Qwen2.5-VL 视觉语言模型，OmniLottie 增加了专用的 Lottie 词汇表。

工作流程：模型接收多模态输入，逐个预测下一个动画指令 token。
优势：自回归生成确保了时间轴上的逻辑连贯性，避免了“先发生后开始”的时序矛盾。

第三招：MMLottie-2M 数据集

——从静态到动态的全方位训练

研究团队构建了目前最大的公开矢量动画数据集：

120 万真实数据：爬取自 LottieFiles 等专业平台，涵盖复杂创意。
80 万合成数据：将静态 SVG 应用自动生成的运动模板（如“淡入 + 位移 + 缩放”），补充了“形状 - 运动”的对应关系。
标准化清洗：统一分辨率、时长，去除不可编辑元素，确保模型学到纯净知识。

实测表现：碾压级领先

在多项权威基准测试中，OmniLottie 展现了统治级实力：

成功率：
- OmniLottie: 88.3%
- GPT-5: 12.7%
- DeepSeek: 9.3%
- Qwen2.5-VL (原生): 0% (完全无法生成有效 JSON)
- Recraft (商业闭源): 77% (但运动质量较差)
视觉质量 (FVD ↓)：
- OmniLottie: 202 (越低越好)
- Recraft: 301
- GPT-5: 716
语义对齐 (0-10 分 ↑)：
- 物体准确性：OmniLottie (4.44) vs GPT-5 (0.73)
- 运动准确性：OmniLottie (5.94) vs Recraft (4.68) vs GPT-5 (0.71)
- 注：OmniLottie 的运动准确性是 GPT-5 的 8 倍以上。
生成效率：
- OmniLottie: 平均 33 秒
- AniClipart (优化算法): 1200 秒 (20 分钟)
- LiveSketch: 723 秒 (12 分钟)
- OmniLottie 比 LiveSketch 快 52 倍。
人类盲测：
在视觉质量、指令遵循、动画质量、几何保真四个维度上，OmniLottie 均获得 第一名。