SGP-Gen ：用强化学习提升大模型生成 SVG 图像的能力

275 0

由香港中文大学、西湖大学、上海人工智能实验室与马克斯·普朗克智能系统研究所联合开展的研究团队，近日推出 SGP-Gen ——一项探索大语言模型（LLM）在符号图形编程（Symbolic Graphics Programming, SGP） 领域能力的前沿工作。

该研究聚焦一个尚未被充分挖掘的问题：

大模型能否像写代码一样，“写”出一张图像？

研究人员提出并开源了 SGP-GenBench，首个面向 SVG 程序生成的综合性评估基准，并通过强化学习（RL）方法显著提升开源模型的表现，使它们在视觉生成任务中接近闭源模型水平。

项目主页：https://spherelab.ai/SGP-Gen
GitHub：https://github.com/Sphere-AI-Lab/SGP-RL

为什么是符号图形编程（SGP）？

传统文本到图像模型（如扩散模型）生成的是像素图像，而 SGP 的目标是生成结构化代码（如 SVG），通过程序化方式构建图形。

以 SVG 为例，它是一种广泛使用的矢量图形格式，由 <circle>、<path> 等标签组成，具备以下优势：

特性	价值
✅ 参数化控制	可精确调整几何形状、颜色、位置
✅ 程序化结构	支持嵌套、复用、层次化建模
✅ 可解释性强	生成结果可读、可编辑、可追溯
✅ 轻量高效	文件小，缩放无损，适合网页与 UI 设计

SGP 本质上是“将语言语义转化为可视化程序”，是检验 LLM 跨模态理解与结构化输出能力的理想测试场。

SGP-GenBench：首个全面的 SGP 评估基准

为系统评估 LLM 的 SGP 能力，研究团队构建了 SGP-GenBench，包含三大任务维度：

1. 物体生成（Object Generation）

基于 SGP-Object-val 数据集，含 930 个单物体示例；
测试模型对具体物体（如“一只黄色鸭子”）的准确渲染能力。

2. 场景生成（Scene Generation）

基于 COCO-val 子集，涵盖 80 类物体与复杂语义描述；
包含 1,024 个样本，评估模型构建多对象场景的能力。

3. 组合生成（Compositional Generation）

使用 SGP-CompBench，含 3,200 个提示；
重点测试：
- 属性绑定（如“红色的苹果”）
- 空间关系（如“猫在桌子左边”）
- 数量控制（如“三个蓝色方块”）

所有任务均采用自动化指标（如 DINO、CLIP、VQA 准确率）进行评估，确保可复现与可扩展。

方法创新：无需配对数据的强化学习训练

如何提升 LLM 生成 SVG 的能力？研究团队提出一种基于视觉反馈的强化学习框架。

核心思路：

给定文本提示，让 LLM 生成 SVG 代码；
将 SVG 渲染为图像；
使用视觉编码器（如 SigLIP、DINO）计算渲染图与原始文本描述之间的语义相似度；
将该相似度作为奖励信号，用于更新 LLM 策略。

🔄 整个过程无需“图像-程序”配对训练数据，仅依赖视觉模型提供反馈。

关键优势：

无需真实 SGP 训练集：摆脱对人工标注程序的依赖；
隐式知识提炼：从强大视觉模型中学习跨模态对齐；
语言-视觉闭环：确保生成内容既符合语义，又具备视觉合理性。

实验结果：RL 显著缩小开源与闭源模型差距

1. 闭源模型仍领先

在未微调情况下，主流闭源模型表现优异：

Claude 3.7 Sonnet Thinking：
- 属性绑定得分：90.5
- 数量控制得分：89.4
Gemini 2.5 Pro Preview：
- DINO 物体匹配得分：0.653（最高）
- 场景 VQA 得分：0.554

表明前沿模型已具备较强的符号生成能力。

2. 强化学习显著提升开源模型

经过 RL 后训练的 Qwen-2.5-7B 表现惊艳：

组合性得分从 8.8 提升至 60.8；
在所有模型中取得最高的 VQA 得分 0.596，略超 Claude；
超越 DeepSeek-R1、QwQ-32B 等其他开源模型。

✅ 证明：通过 RL，小型开源模型可逼近甚至超越大型闭源系统。

深入分析：训练动态与消融实验

训练过程观察

模型生成的 SVG 元素数量和代码长度逐步增加；
开始使用更复杂的结构（如分组、变换）；
能将复杂对象分解为基本图形组件（如用多个 <path> 构建动物轮廓）；
主动添加上下文细节（如阴影、背景），增强视觉丰富性。

消融研究发现

SigLIP 比 CLIP 更适合做奖励模型：在事实性对齐与多样性方面表现更优；
更大的视觉编码器不总是更好：模型容量需与任务匹配；
添加视觉编码器对 VQA 提升有限，但能更好匹配人类偏好。

大语言模型 # SGP-Gen # SVG 图像

文章版权归作者所有，未经允许请勿转载。

Liquid AI 发布 LFM2-2.6B-Exp：小模型大性能，指令遵循能力超越百倍规模对手

大语言模型 # LFM2-2.6B-Exp # Liquid AI

3个月前

0420

Anthropic 发布 Claude Sonnet 4.5：编程能力业界领先，可自主开发生产级应用，定价不变

大语言模型 # Anthropic # Claude Sonnet 4.5 # 编程模型

6个月前

01040

HelpingAI 团队推出全球首个支持“中间思维”的AI模型Dhanishtha-2.0

大语言模型 # Dhanishtha-2.0 # HelpingAI

8个月前

01950

Mistral发布首款推理模型Magistral，挑战Gemini 2.5 Pro与Claude Opus

大语言模型 # Magistral # Mistral AI # 推理模型

9个月前

01480

暂无评论

暂无评论...

SGP-Gen ：用强化学习提升大模型生成 SVG 图像的能力

为什么是符号图形编程（SGP）？

SGP-GenBench：首个全面的 SGP 评估基准

1. 物体生成（Object Generation）

2. 场景生成（Scene Generation）

3. 组合生成（Compositional Generation）

方法创新：无需配对数据的强化学习训练

核心思路：

关键优势：

实验结果：RL 显著缩小开源与闭源模型差距

1. 闭源模型仍领先

2. 强化学习显著提升开源模型

深入分析：训练动态与消融实验

训练过程观察

消融研究发现

阿里通义千问上线 Qwen-3-Max-Preview：当前系列最强语言模型

百度推出轻量级推理模型ERNIE-4.5-21B-A3B-Thinking：原生支持函数调用，可联网查天气、调数据库

相关文章

Liquid AI 发布 LFM2-2.6B-Exp：小模型大性能，指令遵循能力超越百倍规模对手

Anthropic 发布 Claude Sonnet 4.5：编程能力业界领先，可自主开发生产级应用，定价不变

HelpingAI 团队推出全球首个支持“中间思维”的AI模型Dhanishtha-2.0

Mistral发布首款推理模型Magistral，挑战Gemini 2.5 Pro与Claude Opus

暂无评论

文章

DiT架构的文生视频模型xGen-VideoSyn-1：根据文本描述生成逼真的视频场景

用“Megakernel”打破LLM推理瓶颈：斯坦福Hazy Research实现Llama-1B史上最低延迟

Vivaldi CEO 强硬表态：坚决禁止浏览器集成生成式 AI，网页该由人类主导

针对姿势引导的人像图像动画技术TCAN：让图片中的人物根据某个动作序列（比如一个视频）来做出相应的动作

自适应投影引导APG：不牺牲图像质量的前提下，使用更高的指导尺度，从而生成更丰富、更真实的图像

Trae Agent 2.0大升级：能记住、会推理、更懂代码的AI来了

新悟空

Meshy

S.H.I.T

OpenMAIC

Sub2API

CutCut

SGP-Gen ：用强化学习提升大模型生成 SVG 图像的能力

为什么是符号图形编程（SGP）？

SGP-GenBench：首个全面的 SGP 评估基准

1. 物体生成（Object Generation）

2. 场景生成（Scene Generation）

3. 组合生成（Compositional Generation）

方法创新：无需配对数据的强化学习训练

核心思路：

关键优势：

实验结果：RL 显著缩小开源与闭源模型差距

1. 闭源模型仍领先

2. 强化学习显著提升开源模型

深入分析：训练动态与消融实验

训练过程观察

消融研究发现

阿里通义千问上线 Qwen-3-Max-Preview：当前系列最强语言模型

百度推出轻量级推理模型ERNIE-4.5-21B-A3B-Thinking：原生支持函数调用，可联网查天气、调数据库

相关文章

文章

标签云

网址

新悟空

Meshy

S.H.I.T

OpenMAIC

Sub2API

CutCut