NeuralSVG：用于从文本提示生成矢量图形

137 0

特拉维夫大学和麻省理工学院的研究人员推出了一种名为 NeuralSVG 的新方法，用于从文本提示生成矢量图形（SVG）。该方法通过隐式神经表示（NeRFs）和分数蒸馏采样（SDS）技术，生成具有层次结构和可编辑性的矢量图形。与现有方法相比，NeuralSVG 在生成高质量、结构化矢量图形的同时，显著提升了生成结果的可编辑性和灵活性。例如，用户可以通过简单的文本描述（如“一个穿着太空服的宇航员在沙漠中行走”）生成具有清晰层次结构的矢量图形，并通过调整背景颜色等参数动态改变图形的颜色主题。

项目主页：https://sagipolaczek.github.io/NeuralSVG
GitHub：https://github.com/SagiPolaczek/NeuralSVG

主要功能

文本到矢量图形的生成：NeuralSVG 能够根据用户提供的文本提示生成高质量的矢量图形（SVG），支持多种复杂的场景和对象。
动态背景颜色调整：用户可以在生成时指定背景颜色，NeuralSVG 会自动调整矢量图形的颜色主题以匹配背景，实现动态的颜色控制。
层次结构生成：生成的矢量图形具有清晰的层次结构，用户可以通过调整形状数量来控制图形的复杂度。
矢量图形的可编辑性：生成的矢量图形由有序的形状组成，每个形状都具有独立的语义意义，便于用户进行编辑和修改。
扩展到草图生成：NeuralSVG 还可以用于生成矢量草图，支持通过调整笔画数量来生成不同抽象层次的草图。

主要特点

隐式神经表示：NeuralSVG 使用一个小型多层感知机（MLP）网络来隐式表示整个矢量图形场景，通过网络权重编码完整的 SVG 信息。
分数蒸馏采样（SDS）：采用 SDS 技术优化网络权重，使生成的矢量图形更贴近用户提供的文本描述。
层次结构的正则化：通过基于 dropout 的正则化技术，鼓励生成的形状具有独立的语义意义，从而形成有意义的层次结构。
灵活的用户控制：用户可以在推理阶段通过输入参数（如背景颜色、目标宽高比）动态调整生成的矢量图形，而无需重新训练模型。
高效性和可扩展性：NeuralSVG 在生成高质量矢量图形的同时，保持了较低的计算成本和较高的生成效率。

工作原理

网络架构：NeuralSVG 的核心是一个小型 MLP 网络，输入为形状索引，输出为形状的控制点和颜色信息。网络通过两个并行分支分别预测形状的几何参数和颜色。
分数蒸馏采样（SDS）：在训练过程中，使用预训练的文本到图像扩散模型（如 Stable Diffusion）作为指导，通过 SDS 损失函数优化网络权重，使生成的矢量图形与文本描述对齐。
层次结构的正则化：通过在训练中随机丢弃部分形状（dropout），鼓励网络将更多的语义信息编码到早期形状中，从而形成有序的层次结构。
动态控制：在推理阶段，用户可以通过输入额外的参数（如背景颜色、目标宽高比）动态调整生成的矢量图形，实现灵活的定制化。