阶跃星辰推出一个用于生成高保真度和可控制的纹理化3D资产的开放框架Step1X-3D,该框架旨在解决3D生成领域面临的挑战,包括数据稀缺性、算法限制和生态系统碎片化。Step1X-3D通过以下三个主要方面来实现这一目标:
- 数据整理:处理超过500万的3D资产,创建一个包含200万高质量数据集的标准几何和纹理属性。
- 两阶段3D原生架构:结合混合VAE-DiT几何生成器和基于扩散的纹理合成模块。
- 开源发布:包括模型、训练代码和适配模块的完整开源。
例如,Step1X-3D能够从一张简单的输入图像生成具有复杂纹理和高保真几何形状的3D模型。比如,输入一张卡通风格的动物图像,Step1X-3D可以生成一个具有相同风格的3D模型,其表面纹理与输入图像高度一致,同时还能在未被输入图像覆盖的区域生成合理的几何细节。
- GitHub:https://github.com/stepfun-ai/Step1X-3D
- Demo:https://huggingface.co/spaces/stepfun-ai/Step1X-3D
模型 | 下载链接 | 大小 | 更新日期 |
---|---|---|---|
Step1X-3D-geometry | Huggingface | 1.3B | 2025-05-13 |
Step1X-3D-geometry-label | Huggingface | 1.3B | 2025-05-13 |
Step1X-3D Texture | Huggingface | 3.5B | 2025-05-13 |
Models in ModelScope | ModelScope | 6.1B | 2025-05-14 |

主要功能
Step1X-3D的主要功能包括:
- 高保真度几何生成:通过混合VAE-DiT架构生成高分辨率的3D几何形状。
- 纹理合成:通过扩散模型生成与几何形状对齐的纹理。
- 可控性:支持通过图像和语义输入控制生成过程,例如通过LoRA(Low-Rank Adaptation)技术实现几何形状的对称性或细节级别调整。
- 数据整理与开源:提供高质量的3D数据集,并开源模型和训练代码,促进研究和开发。
主要特点
Step1X-3D的主要特点如下:
- 数据质量提升:通过严格的数据整理流程,从超过500万的资产中筛选出200万高质量的3D资产。
- 两阶段生成架构:将几何生成和纹理合成分开处理,确保几何精度和纹理一致性。
- 2D到3D的控制转移:支持直接将2D控制技术(如LoRA)应用于3D合成,桥接2D和3D生成范式。
- 开源和可扩展性:提供完整的开源实现,包括模型、训练代码和适配模块,便于社区扩展和改进。
工作原理
Step1X-3D的工作原理主要基于以下几个方面:
- 几何生成:使用混合VAE-DiT架构,将点云编码到紧凑的潜在空间,并通过可扩展的感知器架构解码为截断符号距离函数(TSDF)。为了保留高频几何细节,引入了锐边采样和双重交叉注意力机制。
- 纹理合成:通过扩散模型生成与几何形状对齐的纹理。该过程包括几何引导的多视图图像生成、纹理空间同步模块以及纹理完成步骤,确保纹理在不同视图之间的一致性和完整性。
- 控制机制:通过LoRA等技术,将2D生成中的参数高效适配方法直接应用于3D生成,实现对生成过程的灵活控制。

测试结果
根据论文中的测试结果:
- 几何生成:Step1X-3D在多种风格(如卡通、素描、逼真)和复杂几何形状(如平面、空心结构、细节丰富)的输入图像上表现出色,生成的3D模型与输入图像高度一致,并在未被输入图像覆盖的区域生成合理的几何细节。
- 纹理生成:Step1X-3D能够生成风格一致的纹理,同时保持对输入图像纹理细节的高保真度。对于输入图像中的遮挡区域,通过几何引导和纹理同步,实现合理的视图补全和多视图一致性。
- 性能比较:Step1X-3D在与现有开源方法(如Trellis、Hunyuan3D 2.0)和专有解决方案(如Tripo、Rodin)的比较中,展现出更高的质量和效率。在用户研究中,Step1X-3D的平均用户偏好评分与当前最佳方法相当。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...