字节跳动推出基于修正流Transformer 架构的新型图像和视频生成模型家族Goku

视频模型2个月前发布小马良

114 0

香港大学和字节跳动的研究人员推出新型图像和视频生成模型家族Goku，它基于修正流Transformer 架构，实现了行业领先的图像和视频联合生成性能。Goku 的目标是通过高质量的视觉内容生成，推动媒体内容创作、广告、视频游戏和世界模型模拟等领域的变革。

项目主页：https://saiyan-world.github.io/goku
GitHub：https://github.com/Saiyan-World/goku

字节跳动推出基于修正流Transformer 架构的新型图像和视频生成模型家族Goku

开发团队还专门推出了一个专门为广告视频生成做的的竖屏 goko+ 模型，基于 Goku 构建的全新视频基础模型家族，专为优化涉及人类和产品的广告场景而设计，以最大化广告效果。官方研究突破表明，可以以低于现有成本 100 倍的价格创建广告视频。

从文本生成营销虚拟形象：Goku+ 将文本转化为超逼真的人类视频，显著优于现有方法。特别是，它能够生成超过 20 秒的视频，呈现稳定的手部动作以及高度表现力的面部和身体动作。
将产品图像转化为视频片段：Goku+ 将您的产品图像转化为引人入胜的视频片段，确保端到端的优化。这一过程显著提升了营销材料的吸引力和效果。
产品与人类互动：Goku+ 生成逼真且极具吸引力的视频，专门用于展示特定产品。这些视频有效捕捉产品的核心亮点，提升观众的参与度和兴趣。
优化广告场景：Goku+ 专注于从文本创建定制的高清视频，以优化广告场景，其表现显著优于其他竞争性视频基础模型。

字节跳动推出基于修正流Transformer 架构的新型图像和视频生成模型家族Goku

主要功能

高质量图像生成：能够根据文本描述生成高分辨率、细节丰富的图像。
高质量视频生成：支持从文本描述生成连贯、流畅的视频，同时保持与文本的语义一致性。
图像到视频生成：将单张图像作为参考，生成与图像内容和风格一致的视频。
多模态生成：支持联合图像和视频生成，能够同时处理图像和视频数据，实现跨模态的高质量输出。

例如

图像生成：输入描述“一只在森林中奔跑的狮子，火焰在其身体周围燃烧”，Goku 能够生成一张逼真的图像，展现出狮子奔跑的动态和火焰的细节。
视频生成：输入描述“一个潜水员在水族馆中喂食热带鱼”，Goku 能够生成一段连贯的视频，展现潜水员的动作和水族馆的环境。
图像到视频生成：输入一张静态的“公园里的孩子骑自行车”的图像，Goku 能够生成一段视频，展示孩子骑车的动态过程。

主要特点

修正流（Rectified Flow）技术：通过修正流算法，Goku 能够高效地将噪声样本逐步转换为目标数据分布，从而实现更快的收敛和更高质量的生成。
联合图像和视频生成：Goku 通过共享的潜空间（Latent Space）和全注意力机制，实现了图像和视频的联合训练，提升了生成质量和语义一致性。
大规模数据集和高质量数据筛选：通过多阶段数据筛选和标注流程，Goku 使用了约 1.6 亿图像文本对和 3600 万视频文本对进行训练，确保了数据的高质量和多样性。
先进的训练基础设施：采用 3D 并行化策略、激活检查点（Activation Checkpointing）和故障容错机制，确保了大规模训练的效率和稳定性。

字节跳动推出基于修正流Transformer 架构的新型图像和视频生成模型家族Goku

工作原理

数据处理：通过多阶段的数据筛选流程，包括视频提取、剪辑、视觉美学过滤、OCR 过滤和运动过滤，确保输入数据的高质量。
模型架构：
- 图像-视频联合 VAE：将图像和视频数据压缩到共享的潜空间，便于统一表示和处理。
- Transformer 架构：采用全注意力机制，处理图像和视频的多模态数据，支持长序列的高效训练。
- 修正流训练：通过线性插值的方式，将噪声逐步转换为目标数据分布，训练模型预测转换过程中的速度，从而实现高质量生成。
训练策略：
- 多阶段训练：先进行文本到图像的预训练，再进行图像和视频的联合训练，最后针对特定模态进行微调。
- 级联分辨率训练：从低分辨率到高分辨率逐步提升训练数据的分辨率，优化生成质量和细节。
优化和扩展：通过并行化策略和激活检查点技术，优化大规模训练的效率和内存使用，同时支持灵活的硬件配置。

具体应用场景

媒体内容创作：自动生成高质量的图像和视频内容，用于电影、电视剧、广告等制作。
视频游戏开发：生成游戏中的角色、场景和动画，提升游戏的视觉效果和沉浸感。
广告设计：根据广告文案快速生成吸引人的图像和视频广告素材。
教育和培训：生成教育视频和动画，帮助学生更好地理解和记忆知识。
虚拟现实（VR）和增强现实（AR）：为虚拟和增强现实应用生成逼真的视觉内容，提升用户体验。
世界模型模拟：用于模拟复杂环境和动态过程，支持科学研究和工程设计。

视频模型 # Goku # 字节跳动 # 视频生成

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

新型3D感知视频扩散方法DaS：实现对视频生成过程的多样化和精确控制

新型3D感知视频扩散方法DaS：实现对视频生成过程的多样化和精确控制

新技术 # DaS # 视频生成

3个月前

01340

新型视频生成技术Magic 1-For-1：通过优化内存消耗和推理延迟，快速生成高质量的视频内容

新型视频生成技术Magic 1-For-1：通过优化内存消耗和推理延迟，快速生成高质量的视频内容

视频模型 # Magic 1-For-1 # 视频生成

2个月前

0550

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

多模态模型 # UI-TARS # 字节跳动

2个月前

01580

阿里通义实验室 Wan 团队推出一体化视频编辑框架 VACE

阿里通义实验室 Wan 团队推出一体化视频编辑框架 VACE

视频模型 # VACE # Wan # 通义实验室

3周前

0790

暂无评论

none

暂无评论...