OmniLottie:全球首个端到端多模态矢量动画生成器,文字/图片/视频一键转可编辑 Lottie

在数字设计领域,动画是灵魂,但高质量动画的制作门槛却高不可攀。现有的 AI 视频生成工具大多输出“死视频”(MP4/GIF)——无法放大、无法修改颜色、无法提取元素。而设计师钟爱的 Lottie 矢量格式,虽具备无限缩放、体积极小、可逐层编辑等优势,却因制作复杂(需 After Effects 等专业软件)而难以普及。

  • 项目主页:https://openvglab.github.io/OmniLottie
  • GitHub:https://github.com/OpenVGLab/OmniLottie
  • 模型:https://huggingface.co/OmniLottie/OmniLottie
  • Demo:https://huggingface.co/spaces/OmniLottie/OmniLottie

复旦大学、StepFun、香港大学 MMLab 和昆士兰大学联合推出的 OmniLottie 作为全球首个端到端的多模态 Lottie 生成器家族,它能直接根据文字描述、参考图片或示例视频,一键生成专业级、可编辑的 Lottie 动画文件,将生成成功率从通用大模型的不足 13% 提升至 88% 以上。

OmniLottie:全球首个端到端多模态矢量动画生成器,文字/图片/视频一键转可编辑 Lottie

核心功能:多模态驱动,原生矢量输出

OmniLottie 不仅仅是一个转换器,它是一个理解运动规律的 AI 动画师:

1. 文字生成动画 (Text-to-Lottie)

输入如“一个红色的心形图标,有节奏地脉动缩放”,AI 即可理解物体形状、颜色及运动逻辑,直接生成包含完整图层信息的 Lottie JSON 文件。

2. 图文结合生成 (Text-Image-to-Lottie)

上传一张静态图(如信封图标),配合文字指令(如“摇晃并弹出蓝色内容”),AI 能让静态图“活”起来,同时完美保留原图的视觉风格。

3. 视频转动画 (Video-to-Lottie)

上传一段实拍视频(如 T 恤展示),AI 能自动提取关键动作与形态,将其转化为风格化的矢量动画。这对于将实拍素材快速转化为 App 内交互动效极具价值。

额外优势:真正的可编辑性

生成的不仅仅是视频,而是完整的工程文件。设计师可在 After Effects 中打开,随意修改颜色、调整贝塞尔曲线、替换图形元素,且文件体积通常仅几十 KB,却能渲染出 4K 画质。

OmniLottie:全球首个端到端多模态矢量动画生成器,文字/图片/视频一键转可编辑 Lottie

五大核心优势:为何它是颠覆性的?

优势传统方案/通用大模型OmniLottie
输出格式栅格视频 (MP4/GIF),不可编辑原生 Lottie 矢量,无限缩放,逐层可改
生成成功率< 13% (常报错或无法渲染)> 88%,达到实用级水平
多模态支持单一文本或需复杂预处理统一框架支持文本、图像、视频混合输入
语义对齐经常画错物体或动效不符精准控制,物体与运动准确性大幅领先
数据规模缺乏专用高质量数据MMLottie-2M:200 万专业标注数据集

技术揭秘:如何让 AI 学会“做动画”?

OmniLottie 的成功源于三个巧妙的架构设计:

第一招:Lottie 分词器 (Lottie Tokenizer)

——把混乱的 JSON 变成清晰的“指令集”

原始 Lottie 文件是嵌套复杂、充满冗余元数据的 JSON,AI 难以学习。OmniLottie 将其重构为线性的指令序列

  • 结构化表达创建形状层 → 画圆形 → 设置填充 → 添加旋转关键帧
  • 效果:去除了 81% 的冗余符号,让 AI 专注于学习“动画规律”而非“背诵语法”。实验证明,引入分词器后,生成成功率从 13% 飙升至 97%

第二招:基于 VLM 的自回归架构

——像写故事一样生成动画

基于强大的 Qwen2.5-VL 视觉语言模型,OmniLottie 增加了专用的 Lottie 词汇表。

  • 工作流程:模型接收多模态输入,逐个预测下一个动画指令 token。
  • 优势:自回归生成确保了时间轴上的逻辑连贯性,避免了“先发生后开始”的时序矛盾。

第三招:MMLottie-2M 数据集

——从静态到动态的全方位训练

研究团队构建了目前最大的公开矢量动画数据集:

  • 120 万真实数据:爬取自 LottieFiles 等专业平台,涵盖复杂创意。
  • 80 万合成数据:将静态 SVG 应用自动生成的运动模板(如“淡入 + 位移 + 缩放”),补充了“形状 - 运动”的对应关系。
  • 标准化清洗:统一分辨率、时长,去除不可编辑元素,确保模型学到纯净知识。

实测表现:碾压级领先

在多项权威基准测试中,OmniLottie 展现了统治级实力:

  • 成功率
    • OmniLottie88.3%
    • GPT-5: 12.7%
    • DeepSeek: 9.3%
    • Qwen2.5-VL (原生): 0% (完全无法生成有效 JSON)
    • Recraft (商业闭源): 77% (但运动质量较差)
  • 视觉质量 (FVD ↓)
    • OmniLottie202 (越低越好)
    • Recraft: 301
    • GPT-5: 716
  • 语义对齐 (0-10 分 ↑)
    • 物体准确性:OmniLottie (4.44) vs GPT-5 (0.73)
    • 运动准确性:OmniLottie (5.94) vs Recraft (4.68) vs GPT-5 (0.71)
    • 注:OmniLottie 的运动准确性是 GPT-5 的 8 倍以上。
  • 生成效率
    • OmniLottie: 平均 33 秒
    • AniClipart (优化算法): 1200 秒 (20 分钟)
    • LiveSketch: 723 秒 (12 分钟)
    • OmniLottie 比 LiveSketch 快 52 倍。
  • 人类盲测
    在视觉质量、指令遵循、动画质量、几何保真四个维度上,OmniLottie 均获得 第一名
© 版权声明

相关文章

暂无评论

none
暂无评论...