字节跳动发布 Seedream 4.0：首次支持多模态生图，同一模型实现文生图、图像编辑、组图生成

404 0

字节跳动正式推出 Seedream 4.0（即梦图片4.0），新一代图像创作模型。该模型在前代 Seedream 3.0 和 SeedEdit 3.0 的基础上，全面增强逻辑理解与多模态推理能力，首次将文生图、图像编辑与组图生成整合至统一架构，支持高达 4K 分辨率的超高清输出，推理速度较前代提升显著。

项目主页：https://seed.bytedance.com/zh/seedream4_0
官方文档：https://bytedance.larkoffice.com/docx/L4vCdah1DoDg7axVdYGcoplSn9f

目前，Seedream 4.0 已上线 豆包 App 与 即梦 AI 网页端。用户只需上传参考图并选择“图片 4.0 模型”，即可体验全新功能。官方表示，功能正在逐步扩量，将在未来几天内覆盖全部用户。

字节跳动发布 Seedream 4.0：首次支持多模态生图，同一模型实现文生图、图像编辑、组图生成

核心升级：从“生成”到“理解”的跨越

Seedream 4.0 不再只是“按提示出图”的工具，而是具备上下文推理能力的智能创作引擎。其核心能力可概括为五大亮点：

精准指令编辑
高度特征保持
深度意图理解
多图输入输出
超高速超高清生成

它能通过自然语言灵活控制画面细节，实现“动嘴 P 图”的创作体验。

一、精准编辑：一句话完成复杂修改

用户仅需输入文本指令，即可完成添加、删除、替换、修饰等操作。例如：

“把背景换成雪山”
“给角色加上墨镜”
“删除画面中的广告牌”

模型在保证画面整体连贯性的同时，精准执行编辑任务，适用于广告设计、内容创作与视觉优化。

二、灵活参考：从参考图中提取身份与风格

Seedream 4.0 可从单张或多张参考图中提取关键信息，如人物身份、艺术风格或结构特征，并在新场景中复现。例如：

基于二维人像生成三维手办效果图；
将某位明星的风格迁移到不同服饰与场景中。

这一能力为虚拟形象设计、IP 衍生开发和二次创作提供了强大支持。

三、视觉信号可控生成：无需 ControlNet

传统图像生成中，若需控制构图或结构，常依赖 ControlNet 等外部模型。Seedream 4.0 原生集成 Canny、Depth、Mask 等视觉信号理解能力，用户只需提供草图、涂鸦或辅助线，即可引导生成目标图像。

这意味着，手绘草图也能变成高质量成品图。

四、上下文推理生成：理解时间、空间与物理逻辑

Seedream 4.0 具备“上下文推理”能力，能理解复杂语义约束，例如：

“室内时间过了 11 个小时” → 生成光线变化后的同一场景；
“角色从站立变为奔跑” → 生成符合物理规律的动作过渡。

这种对三维空间、时间演进和因果逻辑的理解，使其在分镜设计、动画预演等场景中更具实用性。

五、多图参考生成：最多支持十余张参考图

用户可一次性输入多张参考图，模型将自动抽取其中的人物特征、场景风格与物体结构，实现：

风格融合
特征迁移
复合合成

例如，将不同角色、服饰、背景元素组合生成全新场景，真正实现“灵感拼接”。

六、多图输出：生成连贯图像序列

Seedream 4.0 支持一次性输出多张关联图像，保持角色、风格与构图的一致性。适用于：

漫画分镜
故事板创作
成套视觉设计（如系列海报、产品展示）

无需逐张调整，即可获得风格统一的图像序列。

七、高级文字渲染：支持公式、表格与化学结构

该模型显著提升了文字生成能力，可清晰渲染：

中英文文本
数学公式
统计图表
化学分子结构
表格排版

特别适合教育课件、学术插图、信息可视化等专业场景。后续还将支持文字的替换与编辑。

八、自适应比例与 4K 超高清生成

最高支持 4K 分辨率，满足印刷、影视等高质量输出需求；
引入自适应长宽比机制，可根据语义或参考物体自动调整画布比例；
支持用户自定义尺寸，生成更合理、美观的构图。

在速度方面，2K 图像生成时间不到 1.8 秒，兼顾效率与画质。

三大核心功能模式

模式	功能说明
文生图	更强的指令遵循、更快的生成速度、更高的分辨率支持
图像编辑	输入图片 + 自然语言指令，完成任意形式的修改
组图生成	一次性生成多张内容关联的图像，助力灵感脑暴

用户无需切换模型，即可在同一个界面完成多种创作任务。