Stability AI 推出 Stable Video 4D 2.0:单视角视频生成高质量多视角 4D 资产

3D模型7个月前发布 小马良
138 0

Stability AI 发布了 Stable Video 4D 2.0(SV4D 2.0),这是之前Stable Video 4D的重大升级。该模型能够在仅提供一个对象的单视角视频作为输入的情况下,生成多个新视角的动态视频,显著提升了现实世界视频输出的质量与稳定性。

SV4D 2.0 是一种基于视频的生成式 AI 模型,它能够从一段 12 帧、576x576 分辨率的参考视频中,生成包含多个新视角的视频序列。具体来说:

  • 输出形式为 12 帧 × 4 个视角,共 48 张图像;
  • 可视为 4 个不同角度拍摄的视频片段;
  • 同时也支持更高视角(8 视角)和更长帧数的扩展生成。

这项能力让创作者、游戏开发者、影视制作人可以更高效地生成用于虚拟环境、3D 场景或动画设计的多视角资产。

技术亮点

🔧 网络架构升级

SV4D 2.0 采用了全新的网络结构,引入了3D 注意力机制,大幅提升时空一致性。这意味着即使没有参考图像,模型也能更好地理解物体的空间结构和运动轨迹。

🔄 两阶段训练流程

为了提升输出质量,模型采用两阶段训练策略

  1. 先生成静态的 3D 资产;
  2. 再在此基础上引入动态变化,模拟真实世界的动作表现。

这种分步训练方式使最终结果更加清晰、连贯,细节更丰富。

📈 泛化能力增强

尽管训练数据主要来自合成场景(Objaverse-XL 数据集),但通过改进的渲染方法,模型在面对真实世界内容时也表现出更强的适应性和泛化能力。

使用限制与注意事项

虽然 SV4D 2.0 在大多数场景下表现出色,但在处理高动态复杂动作时,仍可能出现一些瑕疵。因此建议结合实际项目进行评估与微调。

此外,该模型不适合生成真实人物或事件的高度写实表示,超出其设计能力和训练目标。

✅ 社区许可

  • 年收入不超过 100万美元 的个人或组织可免费使用该模型及其衍生作品(如 LoRA、Fine-tune)。
  • 适用于研究、非商业及商业用途。

💼 企业许可

安全性与负责任 AI 使用

Stability AI 在模型开发过程中始终贯彻安全设计理念,并实施多项措施降低潜在风险。我们建议开发者根据自身应用场景,进一步测试并应用额外的安全防护机制。

更多关于 Stability AI 安全策略的信息,请访问其官方 Safety 页面

© 版权声明

相关文章

暂无评论

none
暂无评论...