在数字设计领域,动画是灵魂,但高质量动画的制作门槛却高不可攀。现有的 AI 视频生成工具大多输出“死视频”(MP4/GIF)——无法放大、无法修改颜色、无法提取元素。而设计师钟爱的 Lottie 矢量格式,虽具备无限缩放、体积极小、可逐层编辑等优势,却因制作复杂(需 After Effects 等专业软件)而难以普及。
- 项目主页:https://openvglab.github.io/OmniLottie
- GitHub:https://github.com/OpenVGLab/OmniLottie
- 模型:https://huggingface.co/OmniLottie/OmniLottie
- Demo:https://huggingface.co/spaces/OmniLottie/OmniLottie
由复旦大学、StepFun、香港大学 MMLab 和昆士兰大学联合推出的 OmniLottie 作为全球首个端到端的多模态 Lottie 生成器家族,它能直接根据文字描述、参考图片或示例视频,一键生成专业级、可编辑的 Lottie 动画文件,将生成成功率从通用大模型的不足 13% 提升至 88% 以上。

核心功能:多模态驱动,原生矢量输出
OmniLottie 不仅仅是一个转换器,它是一个理解运动规律的 AI 动画师:
1. 文字生成动画 (Text-to-Lottie)
输入如“一个红色的心形图标,有节奏地脉动缩放”,AI 即可理解物体形状、颜色及运动逻辑,直接生成包含完整图层信息的 Lottie JSON 文件。
2. 图文结合生成 (Text-Image-to-Lottie)
上传一张静态图(如信封图标),配合文字指令(如“摇晃并弹出蓝色内容”),AI 能让静态图“活”起来,同时完美保留原图的视觉风格。
3. 视频转动画 (Video-to-Lottie)
上传一段实拍视频(如 T 恤展示),AI 能自动提取关键动作与形态,将其转化为风格化的矢量动画。这对于将实拍素材快速转化为 App 内交互动效极具价值。
额外优势:真正的可编辑性
生成的不仅仅是视频,而是完整的工程文件。设计师可在 After Effects 中打开,随意修改颜色、调整贝塞尔曲线、替换图形元素,且文件体积通常仅几十 KB,却能渲染出 4K 画质。

五大核心优势:为何它是颠覆性的?
| 优势 | 传统方案/通用大模型 | OmniLottie |
|---|---|---|
| 输出格式 | 栅格视频 (MP4/GIF),不可编辑 | 原生 Lottie 矢量,无限缩放,逐层可改 |
| 生成成功率 | < 13% (常报错或无法渲染) | > 88%,达到实用级水平 |
| 多模态支持 | 单一文本或需复杂预处理 | 统一框架支持文本、图像、视频混合输入 |
| 语义对齐 | 经常画错物体或动效不符 | 精准控制,物体与运动准确性大幅领先 |
| 数据规模 | 缺乏专用高质量数据 | MMLottie-2M:200 万专业标注数据集 |
技术揭秘:如何让 AI 学会“做动画”?
OmniLottie 的成功源于三个巧妙的架构设计:
第一招:Lottie 分词器 (Lottie Tokenizer)
——把混乱的 JSON 变成清晰的“指令集”
原始 Lottie 文件是嵌套复杂、充满冗余元数据的 JSON,AI 难以学习。OmniLottie 将其重构为线性的指令序列:
- 结构化表达:
创建形状层→画圆形→设置填充→添加旋转关键帧。 - 效果:去除了 81% 的冗余符号,让 AI 专注于学习“动画规律”而非“背诵语法”。实验证明,引入分词器后,生成成功率从 13% 飙升至 97%。
第二招:基于 VLM 的自回归架构
——像写故事一样生成动画
基于强大的 Qwen2.5-VL 视觉语言模型,OmniLottie 增加了专用的 Lottie 词汇表。
- 工作流程:模型接收多模态输入,逐个预测下一个动画指令 token。
- 优势:自回归生成确保了时间轴上的逻辑连贯性,避免了“先发生后开始”的时序矛盾。
第三招:MMLottie-2M 数据集
——从静态到动态的全方位训练
研究团队构建了目前最大的公开矢量动画数据集:
- 120 万真实数据:爬取自 LottieFiles 等专业平台,涵盖复杂创意。
- 80 万合成数据:将静态 SVG 应用自动生成的运动模板(如“淡入 + 位移 + 缩放”),补充了“形状 - 运动”的对应关系。
- 标准化清洗:统一分辨率、时长,去除不可编辑元素,确保模型学到纯净知识。
实测表现:碾压级领先
在多项权威基准测试中,OmniLottie 展现了统治级实力:
- 成功率:
- OmniLottie: 88.3%
- GPT-5: 12.7%
- DeepSeek: 9.3%
- Qwen2.5-VL (原生): 0% (完全无法生成有效 JSON)
- Recraft (商业闭源): 77% (但运动质量较差)
- 视觉质量 (FVD ↓):
- OmniLottie: 202 (越低越好)
- Recraft: 301
- GPT-5: 716
- 语义对齐 (0-10 分 ↑):
- 物体准确性:OmniLottie (4.44) vs GPT-5 (0.73)
- 运动准确性:OmniLottie (5.94) vs Recraft (4.68) vs GPT-5 (0.71)
- 注:OmniLottie 的运动准确性是 GPT-5 的 8 倍以上。
- 生成效率:
- OmniLottie: 平均 33 秒
- AniClipart (优化算法): 1200 秒 (20 分钟)
- LiveSketch: 723 秒 (12 分钟)
- OmniLottie 比 LiveSketch 快 52 倍。
- 人类盲测:
在视觉质量、指令遵循、动画质量、几何保真四个维度上,OmniLottie 均获得 第一名。















