基于视觉语言模型的端到端多模态 SVG 生成框架OmniSVG:能够生成从简单图标到复杂动漫角色的高质量 SVG 图形

图像模型5个月前更新 小马良
249 0

复旦大学和阶跃星辰的研究人员推出基于视觉语言模型(VLMs)的端到端多模态 SVG 生成框架OmniSVG能够生成从简单图标到复杂动漫角色的高质量 SVG 图形,支持文本到 SVG、图像到 SVG 以及角色参考到 SVG 。

例如,OmniSVG 可以根据文本描述“一个穿着绿色和黄色蘑菇帽、红色斗篷的可爱卡通角色”生成相应的 SVG 图形,或者将一张图片转换为 SVG 格式,甚至可以根据角色参考图像生成新的 SVG 图形。这些功能展示了 OmniSVG 在不同生成模态下的多样性和灵活性。

主要功能

  1. 多模态 SVG 生成:OmniSVG 支持从文本到 SVG(Text-to-SVG)、从图像到 SVG(Image-to-SVG)以及基于角色参考的 SVG 生成(Character-Reference SVG)等多种生成方式。
  2. 高质量 SVG 输出:生成的 SVG 图形具有高视觉保真度和语义一致性,适用于多种设计领域。
  3. 复杂 SVG 生成:OmniSVG 能够处理复杂的 SVG 结构,生成包含数千个路径的高质量 SVG 图形。
  4. 编辑性:生成的 SVG 图形保持了 SVG 的可编辑性,便于后续修改和调整。

主要特点

  1. 统一框架:OmniSVG 是首个利用预训练 VLMs 进行端到端多模态复杂 SVG 生成的统一框架。
  2. SVG 参数化:通过将 SVG 命令和坐标参数化为离散标记,OmniSVG 分离了结构逻辑与低级几何信息,提高了训练效率并保持了复杂 SVG 结构的表达能力。
  3. 大规模数据集:论文引入了 MMSVG-2M,一个包含 200 万个丰富注释的 SVG 资产的多模态数据集,以及标准化的评估协议 MMSVG-Bench,为未来研究提供了全面的资源。
  4. 高效生成:OmniSVG 在生成复杂 SVG 时表现出色,生成时间显著优于传统优化方法。

工作原理

  1. SVG 参数化:OmniSVG 将 SVG 命令和坐标参数化为离散标记,通过简化 SVG 命令(如“Move To”、“Line To”、“Cubic Bézier”等)和颜色属性,将 SVG 图形表示为一个统一的标记序列。
  2. 模型架构:OmniSVG 基于预训练的 VLMs(如 Qwen2.5-VL),通过将文本和图像输入编码为前缀标记,并将 SVG 命令编码为序列,输入到解码器语言模型中进行生成。
  3. 训练目标:使用下一个标记预测损失进行训练,使模型能够根据前缀标记生成新的 SVG 标记。
  4. 多模态指令跟随:OmniSVG 能够处理多种模态的输入,包括文本描述、图像和角色参考图像,生成与输入指令高度一致的 SVG 图形。

应用场景

  1. 图形设计:OmniSVG 可以用于生成高质量的图标、插图和动漫角色,适用于 UI/UX 设计、平面设计和动画制作等领域。
  2. 内容创作:根据文本描述生成 SVG 图形,为内容创作者提供快速的图形生成工具,提高创作效率。
  3. 数据可视化:将数据或图像转换为 SVG 格式,便于在网页或其他应用程序中进行交互式可视化。
© 版权声明

相关文章

暂无评论

none
暂无评论...