去年,在 AI Journey 2023 大会上,Sber AI 推出了两款引人注目的模型:用于图像生成的 Kandinsky 3.0 和俄罗斯首个文本到视频生成模型 Kandinsky Video。今年四月和五月,这些模型的改进版本相继发布,分别是图像质量更高的 Kandinsky 3.1 和视觉质量及时间连贯性得到显著提升的 Kandinsky Video 1.1。近期,Sber AI 发布Kandinsky 家族的新成员——Kandinsky 4.0。这款新一代模型不仅能够根据文本描述或起始帧创建逼真的视频,还能为生成的视频提供音频伴奏。
- 项目主页:https://ai-forever.github.io/Kandinsky-4/K40
- 官方介绍:https://habr.com/ru/companies/sberbank/articles/866156
- GitHub:https://github.com/ai-forever/Kandinsky-4
- Demo:https://huggingface.co/spaces/ai-forever/kandinsky-4-t2v-flash
Kandinsky 4.0 的核心功能
- 高清视频生成:Kandinsky 4.0 可以根据任何文本描述或任意起始帧生成分辨率高达 HD(1280×720)、时长达 12秒 的视频片段。
- 多种宽高比支持:该模型可以生成不同宽高比的视频,以满足各种用户和产品需求。
- 快速生成选项:Kandinsky 4.0 Flash 是一个加速版本,能够在单张 英伟达H100 显卡上以 480p 分辨率 在 11秒 内生成12秒的视频,而在 8张显卡 上则只需 5秒。
- 图像到视频生成:Kandinsky 4.0 I2V 模型可以根据用户提供的图像生成连续的视频片段,适用于从静态图像扩展为动态内容的应用场景。
- 同步音频生成:Kandinsky 4.0 V2A 模型可以根据生成的视频自动合成与之同步的音频,包括背景音乐和旁白,增强了视频的完整性和沉浸感。
Kandinsky 4.0的技术细节:
- 包含四个模型:三个视频生成模型(T2V、T2V Flash、I2V)和一个视频生成音频模型(V2A)。
- 采用潜在扩散技术,处理数据的潜在表示而非原始数据。
- 选择了MMDiT架构,因其在低分辨率测试中表现良好且内存占用较少。
四个模型
- Kandinsky 4.0 T2V:一款文本到视频模型 - 即将推出
- Kandinsky 4.0 T2V Flash:Kandinsky 4.0 T2V的精简版,480p分辨率。(地址)
- Kandinsky 4.0 I2V:一款图像到视频模型 - 即将推出
- Kandinsky 4.0 V2A:一款视频到音频模型(地址)
技术架构与训练过程
Kandinsky 4.0 的成功离不开其先进的技术架构和大规模的数据处理能力。以下是该模型的主要技术特点:
1、潜在扩散模型:Kandinsky 4.0 采用 潜在扩散 架构,其中模型不是直接处理原始数据,而是处理数据的潜在表示或嵌入。这种方案通过三个关键组件实现:
- 变分自编码器(VAE):将视频压缩到低维潜在空间。
- 文本嵌入器:将文本转换为向量表示。
- 扩散模型:学习恢复噪声视频潜在特征,生成高质量的视频。
2、Transformer 架构:Kandinsky 4.0 使用了基于 MMDiT(Multi-Modal Diffusion Transformer) 的架构,结合了 局部和全局注意力机制,能够在处理高分辨率视频时保持高效。模型总共有 50亿个参数,能够生成详细的高清视频。
3、数据处理与过滤:为了训练 Kandinsky 4.0,Sber AI 开发了一种新的图像和视频存储与处理架构。数据存储在 S3 中,而所有元数据和过滤信息则存储在 SQL 数据库 中,确保数据准备过程能够扩展到数百个显卡,并简化了训练阶段的数据选择。
4、蒸馏模型:为了提高生成速度,Kandinsky 4.0 Flash 应用了 Latent Adversarial Diffusion Distillation (LADD) 方法,通过 GAN 的形式对扩散模型进行微调,显著加快了生成速度。
5、音频生成模块:Kandinsky 4.0 V2A 模型使用 CogVLM2-Video 作为视觉编码器,并集成了 视频交叉注意力 层,确保生成的音频与视频内容高度同步。
性能评估与比较
为了评估 Kandinsky 4.0 的性能,Sber AI 进行了广泛的测试,包括 自动指标评估 和 Side-by-Side (SBS) 测试。以下是主要的评估结果:
- 自动指标评估:基于 VBench 基准,Kandinsky 4.0 在多个方面表现出色,包括 Prompt 一致性、模糊度、技术质量 和 美观度 等。
- SBS 测试:在与 CogVideoX-1.5 的对比中,Kandinsky 4.0 获得了 63% 的胜率,显示出明显的优势。此外,Kandinsky 4.0 在 运动的动态性和真实性 方面也有了显著提升。
应用场景与未来展望
Kandinsky 4.0 已经部署在 fusionbrain.ai 网站上,用户可以通过该平台体验其强大的多模态生成能力。创意行业的代表,如艺术家、设计师、电影制作人和博主,已经率先获得了该模型的使用权。未来,Kandinsky 4.0 将继续推动多媒体生成领域的创新,帮助创作者更轻松地将想象变为现实。
评论0