Stability AI终于在6月12日释出了万众期待的Stable Diffusion 3模型,不过此次释出的仅是 20 亿个参数的Stable Diffusion 3 Medium 模型,该型号尺寸较小,非常适合在消费类 PC 和笔记本电脑以及企业级 GPU 上运行。
- 官方介绍:https://stability.ai/news/stable-diffusion-3-medium
- Demo:https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium
相关:
- Stable Diffusion 3核心技术研究论文详解
- Stable Diffusion 3 API正式发布,还计划在不久的将来通过会员资格提供模型
- 如何申请及使用Stable Diffusion 3 API
Stable Diffusion 3 Medium是一款多模态扩散 Transformer(Multimodal Diffusion Transformer,MMDiT)文本到图像的模型,它在图像质量、排版、复杂提示理解和资源效率方面都有显著的性能提升。
它具有以下显著特点:
- 照片级真实感:有效解决了手部和面部的常见伪影问题,无需复杂的工作流程即可生成高质量的图像。
- 高度遵循提示:能够理解包含空间关系、构图元素、动作和风格等复杂提示。
- 卓越排版效果:在MMDiT架构的帮助下,生成的文本无伪影、无拼写错误,达到了前所未有的水平。
- 高效利用资源:由于其低显存占用,非常适合在标准消费级 GPU 上运行,且不会影响性能。
- 易于定制微调:能够从小数据集中学习并吸收细节,非常适合进行个性化定制。
模型说明:
- sd3_medium.safetensors 包含了 MMDiT和 VAE,但不包含任何文本编码器
- sd3_medium_incl_clips_t5xxlfp8.safetensors 包含了所有必要的模型,包括 T5XXL 文本编码器的 fp8(浮点8位)版本,它在质量和资源需求之间提供了一种平衡
- sd3_medium_incl_clips.safetensors 包含了所有必要的模型,但不包括 T5XXL 文本编码器。它需要的资源最少,但如果没有 T5XXL 文本编码器,模型的性能可能会有所差异
模型下载
- Hugging Face:https://huggingface.co/stabilityai/stable-diffusion-3-medium
- 备份下载:https://www.123pan.com/s/I1oZVv-3GlGA.html 提取码:4GAo
如何在本地使用?
官方已经提供了ComfyUI工作流,将ComfyUI升级到最新版,下载官方的工作流即可,大家可以从Hugging Face上下载,也可以在ComfyUI作者的页面下载
模型下载后放置方法如下:
- 包含文本编码器的 SD3 模型:sd3_medium_incl_clips.safetensors (5.5GB) 和 sd3_medium_incl_clips_t5xxlfp8.safetensors (10.1GB) 可以像 ComfyUI 中的任何常规SD模型一样使用。这两个模型之间的区别在于,第一个模型仅包含 2 个文本编码器:CLIP-L 和 CLIP-G,而另一个模型包含 3 个:CLIP-L、CLIP-G 和 T5XXL。确保将 sd3_medium_incl_clips.safetensors 或 sd3_medium_incl_clips_t5xxlfp8.safetensors 放入 ComfyUI/models/checkpoints/ 目录中。
- sd3_medium.safetensors 文件不包含文本编码器/CLIP 模型,因此您必须单独加载它们才能使用该文件。从 text_encoders 目录下载文本编码器模型并将其放入您的 ComfyUI/models/clip/ 目录中。 sd3_medium.safetensors 应放在您的 ComfyUI/models/checkpoints/ 目录中。
sd3 medium模型对显存占用和生成时间:
- Stability AI与英伟达合作,通过利用英伟达RTX显卡和 TensorRT技术,提升了包括Stable Diffusion 3 Medium,在内的所有SD模型的性能。优化后的 TensorRT 版本将提供业界领先的性能,性能提升了 50%。
- 经过 TensorRT 优化的Stable Diffusion 3 Medium版本:https://huggingface.co/stabilityai/stable-diffusion-3-medium-tensorrt
- AMD 针对包括 AMD 最新的加速处理器(APU)、消费级显卡 以及 MI-300X 企业级 GPU 在内的各种 AMD 设备,优化了Stable Diffusion 3 Medium的推理性能。
许可说明
Stable Diffusion 3 Medium是在Stability Non-Commercial Research Community License下发布的。
Stability AI引入了新的创作者许可(Creator License),旨在鼓励社区在支持Stability使命——保持人工智能开放和可访问的同时,利用Stable Diffusion 3。我们鼓励职业艺术家、设计师、开发者及AI爱好者使用创作者许可,开始基于Stable Diffusion的创作与开发。对于大规模商业用户和企业,请联系Stability AI并获取企业许可。这将有助于Stability AI确保企业在遵循使用指南的同时,能够充分发挥模型的全部潜能。
评论0