在经历了一系列由技术故障和许可变更引发的争议后,Stability AI宣布了其最新的图像生成模型系列—Stable Diffusion 3.5(SD3.5),新的Stable Diffusion 3.5系列比Stability之前的代技术更具可定制性和多功能性,同时在性能上也有所提升。
关键要点:
- 今天Stability AI推出了Stable Diffusion 3.5。此次开放发布包括多个模型变体,包括Stable Diffusion 3.5 Large和Stable Diffusion 3.5 Large Turbo。此外,Stable Diffusion 3.5 Medium将于10月29日发布
- 这些模型高度可定制,适用于消费者硬件,并且在宽松的Stability AI社区许可证下,可免费用于商业和非商业用途
- 您现在可以从Hugging Face下载Stable Diffusion 3.5 Large和Stable Diffusion 3.5 Large Turbo,并在GitHub上获取推理代码
Stability AI在今天发布了Stable Diffusion 3.5,这是Stability AI迄今为止最强大的模型。此次开放发布包括多个可定制的变体,适用于消费者硬件,并在宽松的Stability AI社区许可证下可用。您现在可以从Hugging Face下载Stable Diffusion 3.5 Large和Stable Diffusion 3.5 Large Turbo模型,并在GitHub上获取推理代码。
6月,Stability AI发布了Stable Diffusion 3 Medium,这是Stable Diffusion 3系列的首个开放发布。此次发布并未完全达到社区的期望。在听取了宝贵的社区反馈后,Stability AI没有采取快速修复措施,而是花时间进一步开发了一个推进Stability AI使命的版本,即转变视觉媒体。Stable Diffusion 3.5反映了Stability AI致力于为构建者和创作者提供广泛可访问、尖端且在大多数用例中免费的工具。Stability AI鼓励在整个流程中分发和货币化作品——无论是微调、LoRA、优化、应用程序还是艺术品。
- GitHub:https://github.com/Stability-AI/sd3.5
- Stable Diffusion 3.5 Large (8B):模型/Demo
- Stable Diffusion 3.5 Large Turbo (8B):模型/Demo
- Stable Diffusion 3.5 Medium:模型/Demo
- SD3.5微调教程:https://stabilityai.notion.site/Stable-Diffusion-3-5-Large-Fine-tuning-Tutorial-11a61cdcd1968027a15bdbd7c40be8c6
模型发布
Stable Diffusion 3.5提供了多种模型,旨在满足科学研究人员、爱好者、初创企业和企业的需求:
- Stable Diffusion 3.5 Large:拥有80亿参数,具有卓越的质量和对提示的遵循,是Stable Diffusion系列中最强大的基础模型。该模型非常适合在1百万像素分辨率下的专业用例。
- Stable Diffusion 3.5 Large Turbo:Stable Diffusion 3.5 Large的浓缩版本,在仅4步内生成高质量图像,具有出色的提示遵循,比Stable Diffusion 3.5 Large快得多。
- Stable Diffusion 3.5 Medium:拥有25亿参数,采用改进的MMDiT-X架构和训练方法,该模型设计为“开箱即用”在消费者硬件上运行,在质量和易定制性之间取得平衡。它能够生成从0.25到2百万像素分辨率的图像。
开发模型
在开发模型时,Stability AI优先考虑可定制性,以提供一个灵活的基础来构建。为此,Stability AI将查询-键归一化集成到Transformer块中,稳定了模型训练过程,并简化了进一步的微调和开发。
为了支持这种下游灵活性,Stability AI不得不做出一些权衡。从同一提示生成不同种子的输出可能会有更大的变化,这是有意为之的,因为它有助于在基础模型中保留更广泛的知识库和多样化的风格。然而,因此,缺乏特定性的提示可能会导致输出的不确定性增加,美学水平可能会有所不同。对于Medium模型,Stability AI特别调整了架构和训练协议,以提高质量、连贯性和多分辨率生成能力。
模型的优势
Stable Diffusion 3.5版本在以下领域表现出色,使其成为市场上最可定制和最易访问的图像模型之一,同时在提示遵循和图像质量方面保持顶级性能:
- 可定制性:轻松微调模型以满足您的特定创意需求,或基于定制工作流程构建应用程序。
- 高效性能:优化为在标准消费者硬件上运行,无需大量需求,特别是Stable Diffusion 3.5 Medium和Stable Diffusion 3.5 Large Turbo模型。
- 多样化输出:创建代表世界的图像,而不仅仅是某一类型的人,具有不同的肤色和特征,无需广泛的提示。
- 多样的风格:能够生成广泛的风格和美学,如3D、摄影、绘画、线条艺术,以及几乎任何可想象的视觉风格。
此外,Stability AI的分析显示,Stable Diffusion 3.5 Large在提示遵循方面领先市场,并在图像质量方面与更大规模的模型竞争。
Stable Diffusion 3.5 Large Turbo在同类模型中提供了最快的推理时间,同时在图像质量和提示遵循方面保持高度竞争力,即使与非浓缩的类似规模模型相比也是如此。
Stable Diffusion 3.5 Medium优于其他中型模型,在提示遵循和图像质量之间提供了平衡,成为高效、高质量性能的首选。
Stability AI社区许可证概览
Stability AI很高兴在宽松的社区许可证下发布此模型。以下是许可证的关键组成部分:
- 免费用于非商业用途:个人和组织可以免费使用该模型进行非商业用途,包括科学研究。
- 免费用于商业用途(年收入不超过100万美元):初创企业、中小企业和创作者可以在不产生费用的情况下将该模型用于商业用途,只要其年总收入低于100万美元。
- 输出所有权:保留生成的媒体的所有权,不受限制性许可的影响。
对于年收入超过100万美元的组织,请点击此处联系Stability AI,了解企业许可证。
更多访问模型的途径
虽然模型权重现在可以在Hugging Face上用于自行托管,您还可以通过以下平台访问模型:
Stability AI对安全的承诺
Stability AI相信安全、负责任的AI实践,并采取有意识的措施,确保在开发的早期阶段就注重诚信。这意味着Stability AI已经采取并将继续采取合理的步骤,以防止不良行为者滥用Stable Diffusion 3.5。有关Stability AI安全方法的更多信息,请访问Stability AI的Stable Safety页面。
即将到来
不久之后,ControlNets也将推出,为各种专业用例提供高级控制功能。
评论0