基于视觉语言模型的端到端多模态 SVG 生成框架OmniSVG：能够生成从简单图标到复杂动漫角色的高质量 SVG 图形

图像模型8个月前更新小马良

255 0

复旦大学和阶跃星辰的研究人员推出基于视觉语言模型（VLMs）的端到端多模态 SVG 生成框架OmniSVG，能够生成从简单图标到复杂动漫角色的高质量 SVG 图形，支持文本到 SVG、图像到 SVG 以及角色参考到 SVG 。

项目主页：https://omnisvg.github.io
GitHub：https://github.com/OmniSVG/OmniSVG
模型：https://huggingface.co/OmniSVG/OmniSVG
Demo：https://huggingface.co/spaces/OmniSVG/OmniSVG-3B

例如，OmniSVG 可以根据文本描述“一个穿着绿色和黄色蘑菇帽、红色斗篷的可爱卡通角色”生成相应的 SVG 图形，或者将一张图片转换为 SVG 格式，甚至可以根据角色参考图像生成新的 SVG 图形。这些功能展示了 OmniSVG 在不同生成模态下的多样性和灵活性。

主要功能

多模态 SVG 生成：OmniSVG 支持从文本到 SVG（Text-to-SVG）、从图像到 SVG（Image-to-SVG）以及基于角色参考的 SVG 生成（Character-Reference SVG）等多种生成方式。
高质量 SVG 输出：生成的 SVG 图形具有高视觉保真度和语义一致性，适用于多种设计领域。
复杂 SVG 生成：OmniSVG 能够处理复杂的 SVG 结构，生成包含数千个路径的高质量 SVG 图形。
编辑性：生成的 SVG 图形保持了 SVG 的可编辑性，便于后续修改和调整。

主要特点

统一框架：OmniSVG 是首个利用预训练 VLMs 进行端到端多模态复杂 SVG 生成的统一框架。
SVG 参数化：通过将 SVG 命令和坐标参数化为离散标记，OmniSVG 分离了结构逻辑与低级几何信息，提高了训练效率并保持了复杂 SVG 结构的表达能力。
大规模数据集：论文引入了 MMSVG-2M，一个包含 200 万个丰富注释的 SVG 资产的多模态数据集，以及标准化的评估协议 MMSVG-Bench，为未来研究提供了全面的资源。
高效生成：OmniSVG 在生成复杂 SVG 时表现出色，生成时间显著优于传统优化方法。

工作原理

SVG 参数化：OmniSVG 将 SVG 命令和坐标参数化为离散标记，通过简化 SVG 命令（如“Move To”、“Line To”、“Cubic Bézier”等）和颜色属性，将 SVG 图形表示为一个统一的标记序列。
模型架构：OmniSVG 基于预训练的 VLMs（如 Qwen2.5-VL），通过将文本和图像输入编码为前缀标记，并将 SVG 命令编码为序列，输入到解码器语言模型中进行生成。
训练目标：使用下一个标记预测损失进行训练，使模型能够根据前缀标记生成新的 SVG 标记。
多模态指令跟随：OmniSVG 能够处理多种模态的输入，包括文本描述、图像和角色参考图像，生成与输入指令高度一致的 SVG 图形。

应用场景

图形设计：OmniSVG 可以用于生成高质量的图标、插图和动漫角色，适用于 UI/UX 设计、平面设计和动画制作等领域。
内容创作：根据文本描述生成 SVG 图形，为内容创作者提供快速的图形生成工具，提高创作效率。
数据可视化：将数据或图像转换为 SVG 格式，便于在网页或其他应用程序中进行交互式可视化。

图像模型 # OmniSVG # SVG # 视觉语言模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Anzhc 开源系列 YOLO 模型：专注细粒度图像分割与分类任务

Anzhc 开源系列 YOLO 模型：专注细粒度图像分割与分类任务

图像模型 # YOLO 模型 # 图像分割

8个月前

05610

Chroma 模型家族正式发布：基于 FLUX.1-schnell，8.9亿参数开源无限制，4大分支适配不同需求

Chroma 模型家族正式发布：基于 FLUX.1-schnell，8.9亿参数开源无限制，4大分支适配不同需求

图像模型 # Chroma # FLUX.1 [schnell]

7个月前

01,1300

电信AI研究院提出TeleStyle：DiT架构下实现图像/视频内容保持式风格迁移SOTA

电信AI研究院提出TeleStyle：DiT架构下实现图像/视频内容保持式风格迁移SOTA

图像模型 # TeleStyle # 风格迁移

1个月前

0390

微软在Bing平台推出AI图像生成模型MAI-Image-1

微软在Bing平台推出AI图像生成模型MAI-Image-1

图像模型 # MAI-Image-1 # 微软

4个月前

0440

暂无评论

none

暂无评论...