阶跃星辰发布 NextStep-1：140 亿参数自回归模型，用“连续令牌”重塑图像生成

527 0

在图像生成领域，自回归模型长期被视作“文本专家，视觉弱项”——它们擅长逐词生成语言，却难以像扩散模型那样精细构建图像。而如今，阶跃星辰（StepFun）正试图打破这一边界。

GitHub：https://github.com/stepfun-ai/NextStep-1
模型：https://huggingface.co/collections/stepfun-ai/nextstep-1-689d80238a01322b93b8a3dc

阶跃星辰正式推出 NextStep-1 系列模型，包括 NextStep-1-Large（图像生成）和 NextStep-1-Large-Edit（图像编辑），通过一项关键技术创新：直接处理连续图像令牌，为自回归图像生成开辟了一条新路径。

传统自回归图像模型面临一个根本难题：如何将高维图像转化为模型可处理的“令牌”？多数方案采用矢量量化（VQ），将图像压缩为离散的、低分辨率的视觉令牌，但这一过程不可避免地造成信息损失，导致生成图像模糊或失真。

NextStep-1 的突破在于——不量化。它直接在连续潜空间中操作，保留了视觉数据的完整丰富性。输入图像通过图像编码器（如 Flux VAE）转换为连续潜变量，再经像素洗牌（pixel-shuffling）组织为紧凑序列，供模型处理。

这就像用“模拟信号”代替“数字采样”，避免了传统VQ方法的“音质损失”。

NextStep-1 采用统一的自回归架构，将离散文本令牌与连续图像令牌混合成单一序列进行建模。其核心组件包括：

主干模型：一个拥有 140 亿参数的因果 Transformer，负责整体序列建模；
双头输出：
- 文本分支：标准语言模型（LM）头部，预测下一个词；
- 视觉分支：轻量级 1.57 亿参数流匹配头部（Flow Matching Head），预测图像块的连续流。

训练目标是经典的“下一令牌预测”，但视觉部分通过流匹配（Flow Matching）实现：模型学习从噪声逐步“流动”到目标图像的路径，实现高质量生成。

NextStep-1 采用三阶段训练策略：

这种流程确保模型不仅“能生成”，更能“生成得好”。

在多项权威基准测试中，NextStep-1 展现出领先性能：