香港大学和字节跳动的研究人员推出新型图像和视频生成模型家族Goku,它基于修正流Transformer 架构,实现了行业领先的图像和视频联合生成性能。Goku 的目标是通过高质量的视觉内容生成,推动媒体内容创作、广告、视频游戏和世界模型模拟等领域的变革。

开发团队还专门推出了一个专门为广告视频生成做的的竖屏 goko+ 模型,基于 Goku 构建的全新视频基础模型家族,专为优化涉及人类和产品的广告场景而设计,以最大化广告效果。官方研究突破表明,可以以低于现有成本 100 倍的价格创建广告视频。
- 从文本生成营销虚拟形象:Goku+ 将文本转化为超逼真的人类视频,显著优于现有方法。特别是,它能够生成超过 20 秒的视频,呈现稳定的手部动作以及高度表现力的面部和身体动作。
- 将产品图像转化为视频片段:Goku+ 将您的产品图像转化为引人入胜的视频片段,确保端到端的优化。这一过程显著提升了营销材料的吸引力和效果。
- 产品与人类互动:Goku+ 生成逼真且极具吸引力的视频,专门用于展示特定产品。这些视频有效捕捉产品的核心亮点,提升观众的参与度和兴趣。
- 优化广告场景:Goku+ 专注于从文本创建定制的高清视频,以优化广告场景,其表现显著优于其他竞争性视频基础模型。

主要功能
-
高质量图像生成:能够根据文本描述生成高分辨率、细节丰富的图像。
-
高质量视频生成:支持从文本描述生成连贯、流畅的视频,同时保持与文本的语义一致性。
-
图像到视频生成:将单张图像作为参考,生成与图像内容和风格一致的视频。
-
多模态生成:支持联合图像和视频生成,能够同时处理图像和视频数据,实现跨模态的高质量输出。
例如
-
图像生成:输入描述“一只在森林中奔跑的狮子,火焰在其身体周围燃烧”,Goku 能够生成一张逼真的图像,展现出狮子奔跑的动态和火焰的细节。
-
视频生成:输入描述“一个潜水员在水族馆中喂食热带鱼”,Goku 能够生成一段连贯的视频,展现潜水员的动作和水族馆的环境。
-
图像到视频生成:输入一张静态的“公园里的孩子骑自行车”的图像,Goku 能够生成一段视频,展示孩子骑车的动态过程。
主要特点
-
修正流(Rectified Flow)技术:通过修正流算法,Goku 能够高效地将噪声样本逐步转换为目标数据分布,从而实现更快的收敛和更高质量的生成。
-
联合图像和视频生成:Goku 通过共享的潜空间(Latent Space)和全注意力机制,实现了图像和视频的联合训练,提升了生成质量和语义一致性。
-
大规模数据集和高质量数据筛选:通过多阶段数据筛选和标注流程,Goku 使用了约 1.6 亿图像文本对和 3600 万视频文本对进行训练,确保了数据的高质量和多样性。
-
先进的训练基础设施:采用 3D 并行化策略、激活检查点(Activation Checkpointing)和故障容错机制,确保了大规模训练的效率和稳定性。

工作原理
-
数据处理:通过多阶段的数据筛选流程,包括视频提取、剪辑、视觉美学过滤、OCR 过滤和运动过滤,确保输入数据的高质量。
-
模型架构:
-
图像-视频联合 VAE:将图像和视频数据压缩到共享的潜空间,便于统一表示和处理。
-
Transformer 架构:采用全注意力机制,处理图像和视频的多模态数据,支持长序列的高效训练。
-
修正流训练:通过线性插值的方式,将噪声逐步转换为目标数据分布,训练模型预测转换过程中的速度,从而实现高质量生成。
-
-
训练策略:
-
多阶段训练:先进行文本到图像的预训练,再进行图像和视频的联合训练,最后针对特定模态进行微调。
-
级联分辨率训练:从低分辨率到高分辨率逐步提升训练数据的分辨率,优化生成质量和细节。
-
-
优化和扩展:通过并行化策略和激活检查点技术,优化大规模训练的效率和内存使用,同时支持灵活的硬件配置。
具体应用场景
-
媒体内容创作:自动生成高质量的图像和视频内容,用于电影、电视剧、广告等制作。
-
视频游戏开发:生成游戏中的角色、场景和动画,提升游戏的视觉效果和沉浸感。
-
广告设计:根据广告文案快速生成吸引人的图像和视频广告素材。
-
教育和培训:生成教育视频和动画,帮助学生更好地理解和记忆知识。
-
虚拟现实(VR)和增强现实(AR):为虚拟和增强现实应用生成逼真的视觉内容,提升用户体验。
-
世界模型模拟:用于模拟复杂环境和动态过程,支持科学研究和工程设计。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...