Sber AI 推出新一代多模态生成模型Kandinsky 4.0：包含3个视频生成模型（T2V、T2V Flash、I2V）和一个视频生成音频模型（V2A）

379 0

去年，在 AI Journey 2023 大会上，Sber AI 推出了两款引人注目的模型：用于图像生成的 Kandinsky 3.0 和俄罗斯首个文本到视频生成模型 Kandinsky Video。今年四月和五月，这些模型的改进版本相继发布，分别是图像质量更高的 Kandinsky 3.1 和视觉质量及时间连贯性得到显著提升的 Kandinsky Video 1.1。近期，Sber AI 发布Kandinsky 家族的新成员——Kandinsky 4.0。这款新一代模型不仅能够根据文本描述或起始帧创建逼真的视频，还能为生成的视频提供音频伴奏。

项目主页：https://ai-forever.github.io/Kandinsky-4/K40
官方介绍：https://habr.com/ru/companies/sberbank/articles/866156
GitHub：https://github.com/ai-forever/Kandinsky-4
Demo：https://huggingface.co/spaces/ai-forever/kandinsky-4-t2v-flash

Kandinsky 4.0 的核心功能

高清视频生成：Kandinsky 4.0 可以根据任何文本描述或任意起始帧生成分辨率高达 HD（1280×720）、时长达 12秒 的视频片段。
多种宽高比支持：该模型可以生成不同宽高比的视频，以满足各种用户和产品需求。
快速生成选项：Kandinsky 4.0 Flash 是一个加速版本，能够在单张英伟达H100 显卡上以 480p 分辨率 在 11秒 内生成12秒的视频，而在 8张显卡 上则只需 5秒。
图像到视频生成：Kandinsky 4.0 I2V 模型可以根据用户提供的图像生成连续的视频片段，适用于从静态图像扩展为动态内容的应用场景。
同步音频生成：Kandinsky 4.0 V2A 模型可以根据生成的视频自动合成与之同步的音频，包括背景音乐和旁白，增强了视频的完整性和沉浸感。

Kandinsky 4.0的技术细节：

包含四个模型：三个视频生成模型（T2V、T2V Flash、I2V）和一个视频生成音频模型（V2A）。
采用潜在扩散技术，处理数据的潜在表示而非原始数据。
选择了MMDiT架构，因其在低分辨率测试中表现良好且内存占用较少。

四个模型

Kandinsky 4.0 T2V：一款文本到视频模型 - 即将推出
Kandinsky 4.0 T2V Flash：Kandinsky 4.0 T2V的精简版，480p分辨率。（地址）
Kandinsky 4.0 I2V：一款图像到视频模型 - 即将推出
Kandinsky 4.0 V2A：一款视频到音频模型（地址）

技术架构与训练过程

Kandinsky 4.0 的成功离不开其先进的技术架构和大规模的数据处理能力。以下是该模型的主要技术特点：

1、潜在扩散模型：Kandinsky 4.0 采用 潜在扩散 架构，其中模型不是直接处理原始数据，而是处理数据的潜在表示或嵌入。这种方案通过三个关键组件实现：

变分自编码器（VAE）：将视频压缩到低维潜在空间。
文本嵌入器：将文本转换为向量表示。
扩散模型：学习恢复噪声视频潜在特征，生成高质量的视频。

2、Transformer 架构：Kandinsky 4.0 使用了基于 MMDiT（Multi-Modal Diffusion Transformer） 的架构，结合了 局部和全局注意力机制，能够在处理高分辨率视频时保持高效。模型总共有 50亿个参数，能够生成详细的高清视频。

3、数据处理与过滤：为了训练 Kandinsky 4.0，Sber AI 开发了一种新的图像和视频存储与处理架构。数据存储在 S3 中，而所有元数据和过滤信息则存储在 SQL 数据库 中，确保数据准备过程能够扩展到数百个显卡，并简化了训练阶段的数据选择。

4、蒸馏模型：为了提高生成速度，Kandinsky 4.0 Flash 应用了 Latent Adversarial Diffusion Distillation (LADD) 方法，通过 GAN 的形式对扩散模型进行微调，显著加快了生成速度。

5、音频生成模块：Kandinsky 4.0 V2A 模型使用 CogVLM2-Video 作为视觉编码器，并集成了 视频交叉注意力 层，确保生成的音频与视频内容高度同步。

性能评估与比较

为了评估 Kandinsky 4.0 的性能，Sber AI 进行了广泛的测试，包括 自动指标评估 和 Side-by-Side (SBS) 测试。以下是主要的评估结果：

自动指标评估：基于 VBench 基准，Kandinsky 4.0 在多个方面表现出色，包括 Prompt 一致性、模糊度、技术质量 和 美观度 等。
SBS 测试：在与 CogVideoX-1.5 的对比中，Kandinsky 4.0 获得了 63% 的胜率，显示出明显的优势。此外，Kandinsky 4.0 在 运动的动态性和真实性 方面也有了显著提升。

应用场景与未来展望

Kandinsky 4.0 已经部署在 fusionbrain.ai 网站上，用户可以通过该平台体验其强大的多模态生成能力。创意行业的代表，如艺术家、设计师、电影制作人和博主，已经率先获得了该模型的使用权。未来，Kandinsky 4.0 将继续推动多媒体生成领域的创新，帮助创作者更轻松地将想象变为现实。