DiffSynth-Studio

1年前发布 477 00

DiffSynth Studio 是一个开源的扩散引擎，专注于 AI 生成内容（AIGC）技术创新，特别适合学术研究。它通过连接开源扩散模型，提供尖端技术支持和新型推理能力，帮助用户探索图像和视频生成的新可能性。

所在地：

中国

收录时间：

2025-04-04

其他站点:

官方文档

打开网站手机查看

DiffSynth-Studio

打开网站

DiffSynth Studio 是一个开源的Diffusion引擎，推动 AI 生成内容（AIGC）技术的发展，特别针对学术研究。其核心目标是通过整合和增强开源扩散模型，探索图像和视频生成的新技术，提供尖端的技术支持和新型推理能力。

DiffSynth Studio 的主要目的是连接开源社区中的扩散模型，促进 AIGC 技术创新。它特别针对学术领域，提供更前沿的技术探索和推理能力，区别于其姊妹项目 DiffSynth-Engine，后者更专注于工业应用的稳定部署。其目标是让用户“享受扩散模型的魔力”，并在 2025 年 3 月 31 日更新支持 FLUX 的身份保存方法 InfiniteYou，显示其持续发展的动态。

DiffSynth-Engine

DiffSynth-Engine 是一个高性能引擎，专注于构建高效的扩散模型推理流水线。

GitHub：https://github.com/modelscope/DiffSynth-Engine

关键特性：

深思熟虑的设计实现：我们精心重新实现了扩散流水线中的关键组件，如采样器和调度器，避免引入对 k-diffusion、ldm 或 sgm 等外部库的依赖。
广泛的模型支持：兼容主流格式（如 CivitAI）的基本模型和 LoRA 模型，满足多样化的使用场景。
灵活的资源管理：全面支持多种模型量化（如 FP8、INT8）和卸载策略，使在有限 GPU 内存预算下也能加载更大的扩散模型（如 Flux.1 Dev）。
优化的性能：精心设计的推理流水线，实现跨各种硬件环境的快速生成。
跨平台支持：可在 Windows、macOS（Apple Silicon）和 Linux 上运行，确保不同操作系统下的顺畅体验。

关键功能

DiffSynth Studio 提供了丰富的功能，涵盖图像和视频生成多个方面。根据多个来源，其主要功能包括：

长视频合成：支持长达 128 帧的视频生成，如 ExVideo 模型，适合需要连续视频输出的场景。
高分辨率图像生成：突破传统扩散模型的限制，支持超高分辨率图像生成，如 4096x4096，特别适用于需要细节丰富的图像任务。
卡通着色和视频风格化：包括 Toon Shading 和视频风格化功能，增强视觉效果，适合创意设计。
视频去闪烁技术：采用潜在迭代去闪烁框架和补丁混合算法，解决视频合成中常见的闪烁问题，确保输出平滑。这些技术在潜在空间中处理闪烁，显著提高视频一致性。
用户界面支持：提供基于 Gradio 和 Streamlit 的 WebUI，方便开发者通过 AI 辅助创建图像和视频，降低使用门槛。
高级 VRAM 管理：如 HunyuanVideo 支持 24GB VRAM 生成 129x720x1280 的视频，优化资源利用率。
LoRA 微调支持：允许用户对模型进行细粒度调整，适应特定需求。

此外，它还支持文本到视频生成，使用 Stable Diffusion 和 AnimateDiff 模型，并提供高分辨率图像生成（512x512 至 4096x4096），显示其多功能性。

支持的模型

DiffSynth Studio 兼容多种开源扩散模型，涵盖图像和视频生成领域,支持的模型包括：

模型类别	具体模型
图像生成模型	FLUX, Stable Diffusion, Stable Diffusion XL, Stable Diffusion 3, Kolors, Hunyuan-DiT
视频生成模型	HunyuanVideo-I2V, Wan-Video, StepVideo, EliGen, ArtAug, CogVideoX-5B, ExVideo, Stable Video Diffusion
其他支持	InfiniteYou（FLUX 的身份保存方法）