PSDesigner:首个模拟人类设计师工作流的自动化图形设计系统,直接生成可编辑 PSD 文件

图像模型14小时前发布 小马良
6 0

在 AI 绘画领域,Midjourney 等模型已经能生成令人惊叹的图像,但它们有一个致命弱点:输出的是“死”的位图。图层被合并、文字无法修改、元素无法移动。对于需要反复迭代、精细调整的电商海报、广告 Banner 等专业场景,这些工具往往只能作为灵感参考,无法直接交付生产。

  • 项目主页:https://henghuiding.com/PSDesigner
  • GitHub:https://github.com/FudanCVL/PSDesigner

由 复旦大学 和 南洋理工大学 联合推出的 PSDesigner 是一个全新的自动化图形设计系统,它不再仅仅生成一张图片,而是模拟人类设计师的完整创意工作流,直接输出分层清晰、可二次编辑的 Photoshop (PSD) 文件

PSDesigner:首个模拟人类设计师工作流的自动化图形设计系统,直接生成可编辑 PSD 文件

核心突破:从“生成图片”到“生成工程文件”

PSDesigner 的核心愿景是复刻人类设计师的思维与操作过程。它不是端到端地“画”出一张图,而是像真人一样:

  1. 搜集素材:理解需求,寻找合适的图片、图标、背景。
  2. 规划布局:决定先放什么、后放什么,如何构图。
  3. 执行操作:调用工具(如移动、缩放、添加蒙版、调整样式)将素材整合。
  4. 优化细节:检查不协调之处,进行微调。

最终产出的不是一个扁平的 JPG/PNG,而是一个拥有完整图层树、可随时修改的 PSD 源文件

PSDesigner:首个模拟人类设计师工作流的自动化图形设计系统,直接生成可编辑 PSD 文件

系统架构:三大组件协同工作

PSDesigner 由三个高度专业化的模块组成,形成了一个闭环的设计代理:

1. AssetCollector (素材收集器)

  • 功能:解析用户的自然语言指令(如“制作一个夏季促销海报,要有西瓜和冰块”),自动搜索并收集相关的主题素材(背景图、产品图、装饰元素、字体等)。
  • 价值:解决了“巧妇难为无米之炊”的问题,确保设计有丰富的原材料。
PSDesigner:首个模拟人类设计师工作流的自动化图形设计系统,直接生成可编辑 PSD 文件

2. GraphicPlanner (图形规划师) - 核心大脑

  • 训练基石:基于团队构建的首个 PSD 格式设计数据集 CreativePSD 进行训练。
  • 功能
    • 推断工具调用:根据当前设计状态,预测下一步该用什么 Photoshop 工具(如 MoveToolAddLayerStyleMasking)。
    • 双模式操作
      • 整合模式:将新素材以合理的层级和位置插入画布。
      • 优化模式:识别现有图层的不足(如遮挡、颜色不搭),并执行修复操作。
  • 工作流:采用自底向上的遍历策略,在嵌套的图层结构中逐步构建设计,完全模拟人类设计师的“搭建”过程。
PSDesigner:首个模拟人类设计师工作流的自动化图形设计系统,直接生成可编辑 PSD 文件

3. ToolExecutor (工具执行器)

  • 功能:将 GraphicPlanner 生成的抽象指令转化为具体的代码操作,直接操控 PSD 文件结构。
  • 能力:支持创建图层、调整位置/大小、应用混合模式、添加滤镜效果等复杂操作,确保输出的 PSD 文件符合专业标准。
PSDesigner:首个模拟人类设计师工作流的自动化图形设计系统,直接生成可编辑 PSD 文件

独家数据引擎:CreativePSD 数据集

为了教会 AI 像设计师一样思考,研究团队构建了 CreativePSD,这是业界首个基于 PSD 格式的大规模设计数据集

  • 高质量来源:收集了大量覆盖广泛场景(电商、广告、社交媒体)和艺术风格的专业 PSD 文件。
  • 操作轨迹注释:不仅包含最终文件,还记录了图层操作的历史轨迹(即设计师是如何一步步做出这个设计的)。
  • 结构化解析:对图层进行了基于视觉概念的分组和解析,让模型能理解“背景”、“主体”、“装饰”、“文字”等语义层级。
  • 意义:填补了 AI 设计领域“可编辑源文件数据”的空白,让模型真正学到了专业的设计流程 (Design Process) 而非仅仅是设计风格 (Design Style)

实验表现:超越现有方案

研究团队在多个维度进行了严格测试:

  1. 意图转化能力:用户输入一句话,PSDesigner 能直接生成完整的 PSD 文件,图层结构合理,语义准确。
  2. 素材构图能力
    • 在 Crello-v5 测试集(简单场景)中,表现优异。
    • 复杂图层层次结构的无版权 PSD 文件测试中,PSDesigner 展现了强大的层级理解和操作能力,优于现有的基于文本到图像模型或多模态大语言模型的简化方案。
  3. 可编辑性:生成的文件可直接在 Photoshop 中打开,文字可改、元素可移、效果可调,真正实现了生产级交付

应用场景与价值

场景传统 AI 绘图痛点PSDesigner 解决方案
电商海报生成的图文字错误无法改,商品位置不对需重绘直接输出 PSD,运营人员可一键修改文案、替换商品图。
广告 Banner缺乏图层,无法适配不同尺寸要求分层清晰,可快速调整布局以适应多渠道投放。
社交媒体配图风格单一,难以融合品牌素材自主搜集素材并整合,支持品牌 Logo、特定元素的精准植入。
非专业人士设计不懂 PS 操作,只能套用僵化模板输入想法即可生成专业源文件,零基础也能做高端设计。

行业意义

PSDesigner 的出现标志着 AI 设计从 “辅助灵感” 迈向了 “自主生产” 的新阶段。

  • 工作流对齐:它没有试图颠覆现有的设计软件(如 Photoshop),而是通过生成兼容的 PSD 文件,完美融入现有的专业工作流。
  • 可解释性与可控性:由于模拟了人类的操作步骤,其设计过程更具可解释性,用户更容易干预和调整。
  • 降低门槛:让不具备专业设计技能的人也能创造出具有复杂图层结构的生产级设计,极大地释放了创造力。
© 版权声明

相关文章

暂无评论

none
暂无评论...