Stability AI 发布了 Stable Video 4D 2.0(SV4D 2.0),这是之前Stable Video 4D的重大升级。该模型能够在仅提供一个对象的单视角视频作为输入的情况下,生成多个新视角的动态视频,显著提升了现实世界视频输出的质量与稳定性。
- GitHub:https://github.com/Stability-AI/generative-models
- 模型:https://huggingface.co/stabilityai/sv4d2.0
SV4D 2.0 是一种基于视频的生成式 AI 模型,它能够从一段 12 帧、576x576 分辨率的参考视频中,生成包含多个新视角的视频序列。具体来说:
- 输出形式为 12 帧 × 4 个视角,共 48 张图像;
- 可视为 4 个不同角度拍摄的视频片段;
- 同时也支持更高视角(8 视角)和更长帧数的扩展生成。
这项能力让创作者、游戏开发者、影视制作人可以更高效地生成用于虚拟环境、3D 场景或动画设计的多视角资产。

技术亮点
🔧 网络架构升级
SV4D 2.0 采用了全新的网络结构,引入了3D 注意力机制,大幅提升时空一致性。这意味着即使没有参考图像,模型也能更好地理解物体的空间结构和运动轨迹。
🔄 两阶段训练流程
为了提升输出质量,模型采用两阶段训练策略:
- 先生成静态的 3D 资产;
- 再在此基础上引入动态变化,模拟真实世界的动作表现。
这种分步训练方式使最终结果更加清晰、连贯,细节更丰富。
📈 泛化能力增强
尽管训练数据主要来自合成场景(Objaverse-XL 数据集),但通过改进的渲染方法,模型在面对真实世界内容时也表现出更强的适应性和泛化能力。
使用限制与注意事项
虽然 SV4D 2.0 在大多数场景下表现出色,但在处理高动态复杂动作时,仍可能出现一些瑕疵。因此建议结合实际项目进行评估与微调。
此外,该模型不适合生成真实人物或事件的高度写实表示,超出其设计能力和训练目标。
✅ 社区许可
- 年收入不超过 100万美元 的个人或组织可免费使用该模型及其衍生作品(如 LoRA、Fine-tune)。
- 适用于研究、非商业及商业用途。
💼 企业许可
- 若年收入超过 100万美元,需申请 企业许可 才能进行商业用途。
- 申请地址:https://stability.ai/enterprise
- 更多许可详情请参阅:https://stability.ai/license
安全性与负责任 AI 使用
Stability AI 在模型开发过程中始终贯彻安全设计理念,并实施多项措施降低潜在风险。我们建议开发者根据自身应用场景,进一步测试并应用额外的安全防护机制。
更多关于 Stability AI 安全策略的信息,请访问其官方 Safety 页面
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















