阶跃星辰发布 NextStep-1:140 亿参数自回归模型,用“连续令牌”重塑图像生成

图像模型4个月前发布 小马良
483 0

图像生成领域,自回归模型长期被视作“文本专家,视觉弱项”——它们擅长逐词生成语言,却难以像扩散模型那样精细构建图像。而如今,阶跃星辰(StepFun)正试图打破这一边界。

阶跃星辰正式推出 NextStep-1 系列模型,包括 NextStep-1-Large(图像生成)和 NextStep-1-Large-Edit图像编辑),通过一项关键技术创新:直接处理连续图像令牌,为自回归图像生成开辟了一条新路径。

阶跃星辰发布 NextStep-1:140 亿参数自回归模型,用“连续令牌”重塑图像生成

摆脱“有损压缩”,保留视觉完整性

传统自回归图像模型面临一个根本难题:如何将高维图像转化为模型可处理的“令牌”?多数方案采用矢量量化(VQ),将图像压缩为离散的、低分辨率的视觉令牌,但这一过程不可避免地造成信息损失,导致生成图像模糊或失真。

NextStep-1 的突破在于——不量化。它直接在连续潜空间中操作,保留了视觉数据的完整丰富性。输入图像通过图像编码器(如 Flux VAE)转换为连续潜变量,再经像素洗牌(pixel-shuffling)组织为紧凑序列,供模型处理。

这就像用“模拟信号”代替“数字采样”,避免了传统VQ方法的“音质损失”。

统一框架:文本与图像共用“下一令牌”预测

NextStep-1 采用统一的自回归架构,将离散文本令牌连续图像令牌混合成单一序列进行建模。其核心组件包括:

  • 主干模型:一个拥有 140 亿参数的因果 Transformer,负责整体序列建模;
  • 双头输出
    • 文本分支:标准语言模型(LM)头部,预测下一个词;
    • 视觉分支:轻量级 1.57 亿参数流匹配头部(Flow Matching Head),预测图像块的连续流。

训练目标是经典的“下一令牌预测”,但视觉部分通过流匹配(Flow Matching)实现:模型学习从噪声逐步“流动”到目标图像的路径,实现高质量生成。

多阶段训练,追求高质量与可控性

NextStep-1 采用三阶段训练策略:

  1. 预训练:在大规模图文对数据上学习基础生成能力;
  2. 监督微调(SFT):使用高质量标注数据提升指令遵循与细节表现;
  3. 直接偏好优化(DPO):对齐人类审美偏好,提升生成结果的自然度与可用性。

这种流程确保模型不仅“能生成”,更能“生成得好”。

性能表现:自回归模型中的领跑者

在多项权威基准测试中,NextStep-1 展现出领先性能:

基准指标成绩
GenAI-Bench高级提示理解0.67
DPG-Bench图像保真度85.28
OneIG-Bench综合得分0.417(显著优于同类)
WISE世界知识理解0.54
GEdit-Bench(英语)图像编辑能力6.58
ImgEdit-Bench编辑准确性3.71

尤其在复杂提示理解和细节还原方面,NextStep-1 显示出强大的高保真合成能力。

© 版权声明

相关文章

暂无评论

none
暂无评论...