开源视频生成项目Open-Sora Plan：基于多种用户输入生成高分辨率、长时长的理想视频

视频模型2个月前更新小马良

136 0

由北大-兔展AIGC联合实验室共同发起的Open-Sora Plan，目标是复现OpenAI的Sora模型。这是一个开源的大型视频生成模型项目，旨在基于多种用户输入生成高分辨率、长时长的理想视频。该项目包括多个组件，涵盖了从数据预处理到模型部署的整个视频生成过程，主要组件包括Wavelet-Flow变分自编码器（VAE）、联合图像-视频Skiparse去噪器以及各种条件控制器。此外，论文还提出了一系列高效的训练和推理策略，以及一个多维数据筛选流程，以获取高质量的数据。

GitHub：https://github.com/PKU-YuanGroup/Open-Sora-Plan
模型：https://huggingface.co/LanguageBind/Open-Sora-Plan-v1.3.0

例如，如果用户想要生成一个视频，描述“一只好奇的猫从一个舒适的隐藏处探出头来”，Open-Sora Plan能够根据这个文本提示生成一个视频，展示这一场景。此外，它还可以根据用户提供的特定结构信号（如边缘检测、深度图、草图等）来控制视频内容的生成。

开源视频生成项目Open-Sora Plan：基于多种用户输入生成高分辨率、长时长的理想视频

主要功能和特点

多模态输入：支持文本、图像和结构信号等多种输入条件，实现精准的视频内容生成。
高效训练策略：包括MinMax Token策略、自适应梯度裁剪策略和提示优化策略，提高训练效率和模型性能。
多维数据筛选：自动化的数据筛选流程，确保数据的高质量，提升模型训练效果。
条件控制器：包括图像条件控制器和结构条件控制器，实现对视频生成的精细控制。

工作原理

Wavelet-Flow VAE：通过多级小波变换在频率域获取多尺度特征，并将这些特征注入到卷积网络中，以压缩视频信号并为后续的扩散模型提供输入。
联合图像-视频Skiparse去噪器：在低维潜在空间中学习去噪过程，将输入的潜在表示转换为清晰的视频帧。
条件控制器：通过特定的结构信号（如Canny边缘、深度图等）来控制视频内容的生成，实现精确的视频内容操控。

视频模型 # Open-Sora Plan

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Adobe推出TransPixar：通过文本和图像生成透明背景的视频

Adobe推出TransPixar：通过文本和图像生成透明背景的视频

视频模型 # TransPixar

2个月前

01310

新型视频生成模型Pyramidal Flow：提高视频生成的效率，同时保持生成视频的高质量

新型视频生成模型Pyramidal Flow：提高视频生成的效率，同时保持生成视频的高质量

视频模型 # Pyramidal Flow # 视频生成模型

2个月前

03330

字节跳动推出基于修正流Transformer 架构的新型图像和视频生成模型家族Goku

字节跳动推出基于修正流Transformer 架构的新型图像和视频生成模型家族Goku

视频模型 # Goku # 字节跳动 # 视频生成

2个月前

01250

腾讯推出专为生成开放世界游戏量身定制的DiT模型GameGen-O：通过模拟各种游戏引擎特性，如创新角色、动态环境、复杂动作和多样事件，促进了高质量、开放领域的生成

腾讯推出专为生成开放世界游戏量身定制的DiT模型GameGen-O：通过模拟各种游戏引擎特性，如创新角色、动态环境、复杂动作和多样事件，促进了高质量、开放领域的生成

视频模型 # DiT模型 # GameGen-O # 开放世界游戏

2个月前

02940

暂无评论

none

暂无评论...