StarVector:利用多模态大语言模型(MLLM)从图像和文本生成SVG代码

ServiceNow Research、魁北克人工智能研究所、加拿大 CIFAR 人工智能主席、不列颠哥伦比亚大学、高等工程技术学院和苹果的研究人员推出StarVector利用多模态大语言模型(MLLM)从图像和文本生成可缩放矢量图形(SVG)代码。StarVector 解决传统矢量图形生成方法的局限性,例如缺乏语义理解、生成复杂 SVG 时的不足,以及在高分辨率图像生成中的挑战。

例如,给定一个文本提示:“设计一个带有红色十字的圆形图标”,或者一张包含特定设计的光栅图像,StarVector 能够生成对应的 SVG 代码,生成的矢量图形不仅在视觉上与输入高度一致,还能利用 SVG 原语(如圆形、矩形、文本等)实现更紧凑和语义丰富的表示。与传统方法相比,StarVector 能更好地保留形状、颜色渐变和文本信息,同时避免生成过于复杂的路径。

StarVector:利用多模态大语言模型(MLLM)从图像和文本生成SVG代码

主要功能

  1. 图像矢量化(Image-to-SVG):将光栅图像(如图标、标志、技术图表等)转换为 SVG 代码,生成高质量的矢量图形。
  2. 文本驱动的 SVG 生成(Text-to-SVG):根据文本描述生成 SVG 图形,例如根据“一个绿色和白色的紧急出口图标”生成对应的 SVG。
  3. 紧凑且语义丰富的 SVG 输出:利用 SVG 原语(如圆形、矩形、文本等)生成更紧凑和语义丰富的 SVG 代码,避免生成冗长的路径。
  4. 高质量视觉效果:生成的 SVG 图形在视觉上与输入高度一致,保留形状、颜色渐变和文本信息。
StarVector:利用多模态大语言模型(MLLM)从图像和文本生成SVG代码

主要特点

  1. 多模态架构:StarVector 结合了图像编码器和大型语言模型,能够处理光栅图像和文本输入,生成 SVG 代码。
  2. 语义理解:通过语义理解,StarVector 能够识别和利用 SVG 原语,生成更紧凑和语义丰富的 SVG 图形。
  3. 高效生成:StarVector 通过优化的解码技术和并行化训练,实现了高效的 SVG 代码生成。
  4. 大规模数据集和基准测试:为了训练 StarVector,作者构建了 SVG-Stack 数据集(包含 200 万 SVG 样本),并提出了 SVG-Bench 基准测试,涵盖 10 个数据集和 3 个任务(图像到 SVG、文本到 SVG 和图表生成)。
  5. 新颖的评估指标:引入了 DinoScore 等评估指标,更好地反映生成 SVG 的视觉质量,弥补了传统像素级评估指标(如 MSE)的不足。

工作原理

StarVector 的工作原理可以分为以下几个关键部分:

  1. 图像编码器:使用预训练的视觉模型(如 CLIP ViT-B/32)将输入图像编码为视觉标记(visual tokens),这些标记与语言模型的隐藏空间对齐。
  2. 多模态语言模型:将视觉标记和文本嵌入输入到大型语言模型中,模型通过学习输入标记序列和 SVG 代码序列之间的关系,生成 SVG 代码。
  3. SVG 原语利用:StarVector 通过语义理解,识别和利用 SVG 原语(如圆形、矩形、文本等),生成更紧凑和语义丰富的 SVG 图形。
  4. 训练过程:StarVector 的训练分为两个阶段。第一阶段,模型在 SVG-Stack 数据集上学习将图像转换为 SVG 代码;第二阶段,模型在文本到 SVG 任务上进行微调,进一步优化文本驱动的 SVG 生成能力。
  5. 生成过程:在生成阶段,StarVector 使用优化的解码技术(如 FlashAttention 和 vLLM)快速生成 SVG 代码。通过调整采样参数(如温度),模型可以生成多个候选 SVG,并通过 DinoScore 选择最准确的结果。
StarVector:利用多模态大语言模型(MLLM)从图像和文本生成SVG代码

应用场景

  1. 图标和标志设计

    • 应用场景:为应用程序、网站或品牌设计高质量的矢量图标和标志。
    • 优势:StarVector 能够根据文本描述或参考图像生成紧凑且语义丰富的 SVG 图形,确保设计的可扩展性和高质量。
  2. 技术图表生成

    • 应用场景:生成技术图表、流程图或科学图表,用于技术文档、教育材料或演示文稿。
    • 优势:StarVector 能够利用 SVG 原语生成结构化的图表,支持文本、矩形、箭头等元素,确保图表的清晰性和可读性。
  3. 艺术和创意设计

    • 应用场景:为艺术家和设计师提供工具,根据创意描述生成矢量图形,用于艺术作品或创意项目。
    • 优势:StarVector 能够根据文本描述生成具有艺术感的 SVG 图形,支持复杂的形状和颜色渐变。
© 版权声明

相关文章

暂无评论

none
暂无评论...