字节跳动 & 复旦大学联合提出智能海报生成新框架 DreamPoster

图像模型5个月前发布 小马良
255 0

在 AI 生成图像(AIGC)领域,海报设计一直是极具挑战性的任务之一。它不仅要求模型理解文本描述,还需要兼顾视觉美感、排版逻辑和品牌一致性。近日,字节跳动与复旦大学的研究团队联合提出了一种新的文本-图像联合驱动的海报生成框架——DreamPoster,实现了高质量、高保真、灵活布局的海报自动生成。

该模型基于字节跳动自研 T2I 模型 Seedream3.0 构建,并将在字节旗下 Jimeng 等应用中上线,标志着 AI 海报生成技术迈入实用化新阶段。

DreamPoster 的核心能力

DreamPoster 能够根据用户提供的图像素材 + 文本提示,自动生成符合设计规范的专业级海报,具备以下特点:

  •  高质量生成:输出分辨率高、视觉质量优秀
  •  内容保真:忠实还原原始图像元素
  •  灵活布局:支持多种宽高比和排版方式
  •  多任务处理:涵盖文本添加、修改、删除、风格迁移等多种操作

在可用性评估中,DreamPoster 表现出色,可用性率达到 88.55%,远超 GPT-4o(47.56%)和 SeedEdit3.0(25.96%)。

数据集构建:系统化的标注流水线

为训练 DreamPoster,研究团队构建了一个高质量、结构化、配对式的海报数据集,流程如下:

  1. OCR 过滤与美学评分
    首先通过 OCR 提取图像中的文本信息,并结合美学评分机制筛选出具有清晰文本和良好视觉质量的海报。
  2. Poster Captioner:细粒度文本解析器
    训练一个专用模型 Poster Captioner,用于识别并描述海报中的字体大小、颜色搭配、排版结构等关键设计属性。
  3. 源目标配对生成
    利用图像修复、语义分割、渲染等技术,从成品海报中提取“源图像”与“目标海报”的对应关系,形成训练所需的配对数据。

这一数据构建策略确保了模型在学习过程中能够准确理解图文协同关系设计逻辑层级

模型架构与渐进式训练策略

DreamPoster 采用多模态融合架构,将文本、图像和噪声嵌入统一建模。其训练过程分为三个阶段,逐步提升模型的设计能力:

🔹 阶段一:单任务预训练

仅训练图像上添加文本的能力,帮助模型建立图文融合基础。

🔹 阶段二:多任务混合训练

引入更复杂的任务,如文本修改、删除、风格化等,扩展模型应对多样化设计需求的能力。

🔹 阶段三:细粒度美学微调

使用小批量高质量样本进行微调,优化模型对排版、色彩、空间利用等细节的理解与控制。

这种由浅入深的渐进式训练方法,使得 DreamPoster 在保持生成质量的同时,也具备强大的设计灵活性。

性能表现:全面优于现有方法

研究人员通过多个维度对 DreamPoster 进行了定量评估,包括:

维度DreamPoster 表现
提示遵循明显优于基线模型
主体保留准确还原输入图像元素
设计感更接近专业设计师水平

在涉及 60 名人类评估者的测试中,DreamPoster 的可用性率高达 88.55%,显著高于当前主流方案。

此外,在定性结果中,DreamPoster 展现出更强的宽高比适应性布局可控性。相较之下,GPT-4o 和 Gemini 2.5 在合成图像时常常出现比例失衡问题,而 Step1X-Edit 和 SeedEdit 则受限于固定宽高比限制。

© 版权声明

相关文章

暂无评论

none
暂无评论...