阶跃星辰开源300 亿参数文生视频模型Step-Video-T2V：能够生成长达 204 帧的高质量视频

视频模型1个月前发布小马良

72 0

由前微软全球副总裁、微软亚洲互联网工程院首席科学家姜大昕创办的AI公司阶跃星辰，开源了一款强大的文生视频模型——Step-Video-T2V。该模型拥有 300 亿参数，能够生成长达 204 帧的高质量视频。

GitHub：https://github.com/stepfun-ai/Step-Video-T2V
模型：Step-Video-T2V|Step-Video-T2V-Turbo
官网：https://yuewen.cn/videos

通过深度压缩变分自编码器（Video-VAE）和基于扩散模型的架构，Step-Video-T2V 实现了高效的视频生成，并通过多种优化技术提升了生成视频的质量和多样性。此外，模型还引入了基于人类偏好的优化方法（Video-DPO），进一步提升了生成视频的视觉质量。

阶跃星辰开源300 亿参数文生视频模型Step-Video-T2V：能够生成长达 204 帧的高质量视频

一、主要功能

文本到视频生成：用户只需输入文本提示，模型即可生成与描述匹配的视频内容。
多语言支持：支持中文和英文提示，能够理解不同语言的输入并生成相应的视频。
高质量视频生成：生成的视频具有高分辨率（544×992），在运动连贯性、视觉美感和内容一致性方面表现出色。
视频编辑与理解：可用于视频编辑任务，例如根据文本提示对现有视频进行修改或增强。

阶跃星辰开源300 亿参数文生视频模型Step-Video-T2V：能够生成长达 204 帧的高质量视频

二、模型概述

1. 视频压缩与编码

Step-Video-T2V 使用深度压缩变分自编码器（Video-VAE），实现了 16×16 的空间压缩比和 8× 的时间压缩比，同时保持了出色的视频重建质量。这种压缩不仅加速了训练和推理，还与扩散过程对压缩表示的偏好相一致。

阶跃星辰开源300 亿参数文生视频模型Step-Video-T2V：能够生成长达 204 帧的高质量视频

2. 3D 全注意力架构

基于 DiT 架构，Step-Video-T2V 拥有 48 层，每层包含 48 个注意力头，每个头的维度为 128。模型通过 AdaLN-Single 合并时间步长条件，并在自注意力机制中引入 QK-Norm 以确保训练稳定性。此外，3D RoPE 在处理不同视频长度和分辨率的序列中发挥了关键作用。

阶跃星辰开源300 亿参数文生视频模型Step-Video-T2V：能够生成长达 204 帧的高质量视频

3. 基于人类偏好的优化（Video-DPO）

Step-Video-T2V 通过直接偏好优化（DPO）结合人类反馈，进一步提升生成视频的视觉质量。DPO 利用人类偏好数据微调模型，确保生成内容更贴近人类期望。

阶跃星辰开源300 亿参数文生视频模型Step-Video-T2V：能够生成长达 204 帧的高质量视频

三、模型使用

1. 硬件要求

运行 Step-Video-T2V 模型需要支持 CUDA 的 NVIDIA GPU。以下是不同配置下的资源需求：

模型	分辨率	峰值 GPU 内存	50 步（带 Flash-Attn）	50 步（不带 Flash-Attn）
Step-Video-T2V	544×992×204 帧	77.64 GB	743 秒	1232 秒
Step-Video-T2V	544×992×136 帧	72.48 GB	408 秒	605 秒

建议使用 80GB 显存的 GPU 以获得更好的生成质量，测试操作系统为 Linux。

2. 推理脚本

模型采用分离策略，将文本编码器、VAE 解码和 DiT 分别处理，以优化 GPU 资源利用率。因此，需要一个专用 GPU 来处理文本编码器的嵌入和 VAE 解码的 API 服务。

3. 最佳实践推理设置

为了获得最佳生成效果，建议调整以下推理参数：

模型	推理步数（INFER_STEPS）	CFG 缩放（CFG_SCALE）	时间偏移（TIME_SHIFT）	帧数（NUM_FRAMES）
Step-Video-T2V	30-50	9.0	13.0	204
Step-Video-T2V-Turbo	10-15	5.0	17.0	204

四、基准测试

为了评估模型性能，阶跃星辰发布了 Step-Video-T2V Eval 基准测试，包含 128 个真实用户的中文提示。该基准测试覆盖 11 个不同类别：体育、食物、风景、动物、节日、组合概念、超现实、人物、3D 动画、电影摄影和风格。

视频模型 # Step-Video-T2V # Step-Video-T2V-Turbo # 文生视频模型 # 阶跃星辰

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

肖像图像动画Hallo2：用于制作高分辨率、长时间的人像动画

肖像图像动画Hallo2：用于制作高分辨率、长时间的人像动画

视频模型 # Hallo2 # 肖像图像

2个月前

02390

智谱 AI推出CogVideoX 系列图生视频模型 CogVideoX-5B-I2V

智谱 AI推出CogVideoX 系列图生视频模型 CogVideoX-5B-I2V

视频模型 # CogVideoX-5B-I2V # 智谱 AI

2个月前

03260

开源视频生成项目Open-Sora Plan：基于多种用户输入生成高分辨率、长时长的理想视频

开源视频生成项目Open-Sora Plan：基于多种用户输入生成高分辨率、长时长的理想视频

视频模型 # Open-Sora Plan

2个月前

01310

阿里通义实验室推出新型模型LHM：能够在几秒钟内从单张图像重建出可动画化的人体三维模型

阿里通义实验室推出新型模型LHM：能够在几秒钟内从单张图像重建出可动画化的人体三维模型

视频模型 # LHM # 阿里通义实验室

2周前

0440

暂无评论

none

暂无评论...