在经历了一系列由技术故障和许可变更引发的争议后,AI初创公司Stability AI宣布了其最新的图像生成模型系列——Stable Diffusion 3.5。该公司声称,这一系列模型比之前的版本更具可定制性和多功能性,同时在性能上也有所提升。
新模型介绍
Stable Diffusion 3.5系列包括三个模型:
Stable Diffusion 3.5 Large
- 参数:80亿参数
- 图像分辨率:高达1百万像素
- 特点:最强大的模型,能够生成高质量的图像。
Stable Diffusion 3.5 Large Turbo
- 特点:Stable Diffusion 3.5 Large的浓缩版本,生成图像更快,但牺牲了一些质量。
Stable Diffusion 3.5 Medium
- 特点:优化用于智能手机和笔记本电脑等边缘设备,能够生成从0.25到2百万像素分辨率的图像。
- 发布日期:10月29日
技术改进
Stability AI表示,Stable Diffusion 3.5模型在生成多样化输出方面表现出色,能够描绘不同肤色和特征的人的图像,而不需要广泛的提示。
训练方法:
- 多版本提示:在训练过程中,每张图像都带有多个版本的提示,较短的提示优先,确保了图像概念的更广泛和更多样化的分布。
- 数据来源:训练数据包括过滤后的公开可用数据集和合成数据。
争议与应对
尽管Stability AI在多样化输出方面做出了努力,但过去一些公司在图像生成器中实现这些功能时引发了争议。例如,Google的Gemini聊天机器人曾因生成不合时宜的人物图像而暂停图像生成功能。Stability AI的首席技术官Hanno Basse表示,公司的方法可能更为周到,但目前尚无法提供早期访问以验证这些说法。
前代模型的问题
Stability AI的前代模型Stable Diffusion 3 Medium因其奇特的伪影和对提示的糟糕遵循而受到广泛批评。尽管Stable Diffusion 3.5模型可能会遭受类似的提示错误,但公司表示,这些模型在生成不同风格的图像方面表现更好,包括3D艺术。
提示多样性:
- 种子变化:从同一提示生成不同种子的输出可能会有更大的变化,有助于保留更广泛的知识库和多样化的风格。
- 不确定性:缺乏特定性的提示可能会导致输出的不确定性增加,美学水平可能会有所不同。
许可与商业化
Stable Diffusion 3.5系列模型的许可政策与之前的模型一致:
- 非商业用途:免费用于非商业目的,包括研究。
- 小型企业:年收入低于100万美元的企业可以免费商业化使用。
- 大型企业:年收入超过100万美元的组织必须与Stability签订企业许可证。
今年夏天,Stability AI因其限制性的微调条款引发了争议。作为回应,公司调整了其条款,允许更自由的商业使用。用户拥有他们使用Stability模型生成的媒体,并被鼓励分发和货币化这些作品。
透明度要求:
- 许可证副本:用户必须向这些创作的用户提供社区许可证副本。
- 标识:在相关网站、用户界面、博客文章、关于页面或产品文档上显著显示“由Stability AI提供支持”。
技术细节与安全性
Stable Diffusion 3.5 Large和Diffusion 3.5 Large Turbo可以自行托管或通过Stability的API和包括Hugging Face、Fireworks、Replicate和ComfyUI在内的第三方平台使用。Stability计划在未来几天内发布这些模型的ControlNets,允许进行微调。
版权与数据:
- 训练数据:Stability的模型是在公共网络数据上训练的,其中一些数据可能受版权保护或具有限制性许可。
- 合理使用原则:Stability认为合理使用原则使他们免受版权索赔,但数据所有者仍可提起集体诉讼。
- 数据删除请求:Stability允许数据所有者请求将其数据从训练数据集中删除。截至2023年3月,已有8000万张图像被删除。
选举安全
在即将到来的美国大选背景下,Stability AI表示已采取并将继续采取合理的步骤,以防止不良行为者滥用Stable Diffusion。然而,公司拒绝提供具体的技术细节。
内容限制:
- 误导性内容:Stability仅禁止使用其生成式AI工具创建的明确“误导性”内容,而不涉及可能影响选举、损害选举完整性或涉及政治家和公众人物的内容。
评论0