Kandinsky 5.0 全系列开源：190亿参数视频Pro+轻量版，支持中俄双语+5-10秒HD生成

196 0

来自俄罗斯的AI企业Sber AI，正式推出新一代扩散模型家族 Kandinsky 5.0，以“全场景覆盖+开源开放”为核心亮点，涵盖视频生成（T2V/I2V）、图像生成（T2I）、图像编辑三大核心能力，同时提供 Pro 专业版与 Lite 轻量版双系列模型，支持中俄双语提示词、最高 HD 分辨率输出，且通过硬件优化让 12GB 显存 GPU 即可运行，彻底降低前沿生成式AI的使用门槛。

项目主页：https://kandinskylab.ai
GitHub：https://github.com/kandinskylab/kandinsky-5
模型：https://huggingface.co/kandinskylab

Kandinsky 5.0 全系列开源：190亿参数视频Pro+轻量版，支持中俄双语+5-10秒HD生成

模型家族全景：Pro 级性能与 Lite 级便捷的双重选择

Kandinsky 5.0 构建了完整的模型生态，针对不同用户需求（专业创作、科研微调、日常试用）提供细分版本，核心分为四大系列：

1. Kandinsky 5.0 Video Pro：190亿参数的专业视频生成利器

作为家族旗舰级视频模型，190亿参数量确保了HD级生成质量，专为商业创作、专业内容生产设计：

核心能力：支持文本到视频（T2V）、图像到视频（I2V）双向生成，可输出 5 秒或 10 秒时长视频，提供 HD（高清）与 SD（标清）两种分辨率选项；
差异化优势：具备可控相机运动功能，配合 Qwen2.5-VL 与 CLIP 双文本嵌入模型，对中俄双语提示词的理解精准度行业领先；
模型变体：
- SFT 模型：主打最高生成质量，适合直接商用产出；
- 预训练模型：专为研究者、开发者提供，支持二次微调适配特定场景；
性能表现：在 NVIDIA H100 GPU 上，5 秒 SD 版本延迟仅 560 毫秒，HD 版本延迟 1241 毫秒（二次推理后测量，首次运行含编译过程）。

2. Kandinsky 5.0 Video Lite：20亿参数的开源轻量标杆

针对消费级用户与硬件资源有限的场景，Lite 版以 20 亿参数量实现“轻量化+高性能”平衡，在开源模型中排名同类第一：

核心能力：同样支持 T2V/I2V 生成，输出 5-10 秒视频，对俄语概念的理解能力在开源生态中处于领先水平，优于更大参数量的 Wan 模型（50 亿/140 亿参数）；
速度优化：提供多种加速变体，CFG 蒸馏版运行速度快 2 倍，扩散蒸馏版快 6 倍且质量损失最小，5 秒蒸馏版延迟仅 35 秒（H100 GPU 环境）；
模型变体：包含 SFT 版（高质量）、CFG-蒸馏版（高速）、扩散-蒸馏版（低延迟）、预训练版（可微调），满足不同速度与质量需求。

3. Kandinsky 5.0 Image Lite：60亿参数的高保真图像生成

聚焦图像生成场景，60亿参数量兼顾质量与效率：

核心能力：支持 1K 分辨率输出（1280x768、1024x1024 等主流比例），具备高视觉保真度与强大的文本书写功能，可精准还原复杂排版与多语言文字；
优势亮点：对俄语提示词的理解能力突出，适合俄语区创作者或多语言场景使用，延迟仅 13 秒（H100 GPU 环境），生成效率行业领先。

4. Kandinsky 5.0 Image Editing：60亿参数的精细化图像编辑

专为图像二次创作设计，完美承接生成后的优化需求：

核心能力：支持 1K 分辨率编辑，可基于文本提示对现有图像进行风格转换、细节优化、内容增补，同时保留原图核心特征；
协同优势：与 Image Lite 模型共享技术底座，文本书写与俄语理解能力一致，形成“生成-编辑”的完整工作流。

核心技术架构：兼顾质量与效率的底层创新

Kandinsky 5.0 系列模型基于先进的扩散模型技术栈，实现性能突破：

生成主干：采用扩散 Transformer（DiT）架构，通过交叉注意力机制深度绑定文本嵌入与视觉生成，提升提示词遵循度；
潜在空间优化：集成 HunyuanVideo 3D VAE 进行视频编码/解码，在压缩率与质量之间实现最优平衡；
注意力引擎灵活选择：支持 Flash Attention 2/3、Sage Attention、SDPA 多种注意力计算方式，用户可根据硬件配置灵活切换，最大化性能；
内存优化：通过 VAE 平铺优化、Bitsandbytes NF4 量化支持，将整体显存需求降低，让 12GB 显存 GPU 即可运行核心模型。

关键更新与硬件适配：从科研到落地的全流程支持

自 2025 年 9 月以来，Kandinsky 5.0 持续迭代核心功能，逐步降低使用门槛：

重要更新节点：
- 2025/11/26：简化 LoRa 训练工具开源，降低模型微调难度；
- 2025/11/24：相机控制 LoRa（Lite/Pro 版本）开源，提供完整推理代码；
- 2025/11/20：Kandinsky 5.0 Video Pro 全量开源，T2V/I2V 模型同步上线；
- 2025/10/19：支持 12GB GPU 运行，新增 SDPA 注意力支持，无需 Flash Attention 即可部署；
硬件适配要求：
- 专业级部署：推荐 NVIDIA H100 GPU（80GB 显存），适配 CUDA 12.8.1 与 PyTorch 2.8，实现低延迟批量生成；
- 消费级部署：12GB 显存 GPU 可运行 Lite 系列模型，24GB 显存 GPU 可通过内存卸载功能流畅运行 Pro 系列模型；
快速上手渠道：所有模型检查点均已在 Hugging Face 开源，支持 ComfyUI 部署（README 已更新适配教程），同时提供完整的配置文件与推理示例代码（examples 目录下）。