Stable Cascade

预计阅读时间1 分 699 views

Stability AI在2月14日发布了基于Würstchen架构的文生图模型——Stable Cascade。好消息是,ComfyUI已在本周末的更新中正式支持Stable Cascade,官方还释出了Stable Cascade工作流,使用方法非常简单。

Stable Cascade

Stable Cascade与现有的Stable Diffusion系列模型有所不同。Stable Cascade的构建基于一个流水线,该流水线由三个独立模型——Stages A、B和C组成。若需详细了解Stable Cascade模型,请参阅《Stability AI发布新模型Stable Cascade》一文

Stable Cascade

1、更新ComfyUI

首先,请确保您的ComfyUI已更新至最新版本

Stable Cascade

2、下载模型

访问官方的Stable Cascade模型下载页面,下载stage_b.safetensorsstage_c.safetensors模型

Stable Cascade

  • 将这两个模型文件放置在ComfyUI/models/unet目录下;同样地,下载stage_a.safetensors模型并将其放在ComfyUI/models/vae目录中
  • 下载CLIP模型,并将其重命名为clip_g_sdxl.fp16.safetensors,然后将其放置在ComfyUI/models/clip目录下

Stable Cascade

3、加载工作流

将官方提供的工作流文件直接拖放到ComfyUI界面上,加载后界面将如下所示:

Stable Cascade
点击放大进行查看

4、生成图片

  • 初次使用工作流生成图片时,可能会稍慢一些,但随后的生成速度将恢复正常
  • 在我的4070显卡上,使用官方工作流生成一张1024分辨率的图片大约需要14秒

Stable Cascade

注意:如果你的显卡和内存配置不太好,可以尝试bf16模型来进行生成.

名词解释:在深度学习与AI中,bfloat16(BF16)是一种半精度浮点格式,它用16位存储数值,通过优化指数部分的位宽来保持对大动态范围的支持,与FP32相似。在处理大型模型时,诸如stage_b_bf16.safetensors这样的表述意味着模型参数及中间结果可能以bfloat16格式存于安全张量内,从而减小内存使用、加快计算速度,并确保训练和推理的有效性。这种技术旨在充分利用现代GPU或TPU的BF16硬件加速特性,在不明显降低模型性能的同时提高资源效率。

生成效果

使用OpenAI最新发布的Sora模型在文生图模式所使用的提示词,大家对比看看,那个效果好?

提示词:Close-up portrait shot of a woman in autumn, extreme detail, shallow depth of field

Stable Cascade
左边是Sora,右边是Stable Cascade,下面对比图片都是按此拼接

提示词:Vibrant coral reef teeming with colorful fish and sea creatures

Stable Cascade

提示词:Digital art of a young tiger under an apple tree in a matte painting style with gorgeous details

Stable Cascade

提示词:A snowy mountain village with cozy cabins and a northern lights display, high detail and photorealistic dslr, 50mm f/1.2

Stable Cascade

如果你无法下载模型和工作流,可以从网盘进行下载:

123网盘:https://www.123pan.com/s/I1oZVv-odSGA.html 提取码:5KAG

暂无评论

none
暂无评论...
分享此文档

Stable Cascade

或复制链接

文章目录
Same.Dev

Same.Dev

Same Dev 是一款前沿的 AI 工具,旨在通过自动化 UI 复制和代码生成,弥合设计与开发之间的差距。其像素级精度和多输入支持使其在快速原型开发和效率提升方面具有潜力。
Reve Image

Reve Image

Reve Image在人像和设计排版方面表现尤为出色,能够精准地根据用户输入的文本生成高质量的图像,同时也支持图生图功能,为创意工作者和普通用户提供了强大的工具。
可灵 AI

可灵 AI

可灵 AI(Kling AI)是一款创新的 AI 工具,专注于帮助用户快速生成高质量的图片和视频。它由快手团队开发,基于自研的可灵大模型和可图大模型,提供多样化的创作功能,特别适合内容创作者和市场营销人员。
ChatGPT

ChatGPT

ChatGPT 是一个由 OpenAI 开发的 AI 聊天机器人,可以生成类似人类的对话回应。它基于 GPT系列模型,于 2022 年 11 月 30 日首次发布。ChatGPT 可以执行多种任务,包括回答问题、编写代码、创作音乐和起草电子邮件,这使其成为一个多功能的AI工具。
Open ASR 排行榜

Open ASR 排行榜

Open ASR 排行榜 对 Hugging Face Hub 上的语音识别模型进行排名和评估。我们报告平均 WER(字错误率)(⬇️ 越低越好)和 RTFx(实时因子)(⬆️ 越高越好),模型根据其平均 WER 从低到高进行排名。
通义万象

通义万象

通义万象是阿里云旗下的图像及视频生成平台,凭借其强大的多模态生成能力,正在引领生成式 AI 的发展。除了传统的文生图能力,通义万象现已支持文生视频、图生视频等多种功能,并在插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化应用中表现出色。
查看完整榜单