字节释出Phantom-Wan-14B!从参考图像中提取关键主体元素生成一致性视频

工作流3周前发布 小马良
123 0

字节跳动于4月份正式开源了其统一视频生成框架 Phantom,这是一个专注于“主体一致性(Subject-to-Video, S2V)”的视频生成框架。它能够从参考图像中提取关键主体元素,并结合文本描述,生成符合预期、视觉一致的高质量视频。

字节跳动推出统一的视频生成框架Phantom :通过跨模态对齐实现主体一致性的视频生成

字节释出Phantom-Wan-14B!从参考图像中提取关键主体元素生成一致性视频

什么是 Phantom?

Phantom 是一个跨模态对齐驱动的视频生成框架,核心目标是确保视频中的主体(如人物、动物或物体)在生成过程中保持与输入图像和文本的高度一致。

它不仅支持单个主体的视频生成,还支持多主体交互场景,适用于数字人、虚拟试穿、AI短片创作等多种应用场景。

核心功能亮点

✅ 主体一致性视频生成(S2V)

  • 单主体生成:输入一张人物/物体图片 + 文本指令(如“她在跳舞”),即可生成对应动作的视频。
  • 多主体生成:输入多张图片 + 描述(如“一个人和一只狗在公园玩耍”),可生成互动式视频。

✅ 面部 ID 保持

在生成人物视频时,Phantom 能够有效保留原始面部特征,避免身份漂移问题,特别适合需要高度真实感的数字人应用。

模型演进与现状

字节跳动自今年4月起已陆续发布多个 Phantom 模型:

模型名称参数量发布时间特点
Phantom-Wan-1.3B1.3B2024年4月21日小型模型,适合本地运行,但效果一般
Phantom-Wan-14B14B2025年5月27日大型模型,生成质量高,需高性能 GPU 支持

据官方透露,未来还将推出:

  • Phantom-Wan-14B Pro
  • 相关训练数据集
  • 完整训练代码

此外,开发者 kijai的ComfyUI插件ComfyUI-WanVideoWrapper早在4月就已经支持此模型,并发布了量化版本模型,进一步降低了本地部署门槛。

字节释出Phantom-Wan-14B!从参考图像中提取关键主体元素生成一致性视频

如何使用 Phantom-Wan系列模型?

  • 安装所需插件,如ComfyUI-WanVideoWrapper
  • 将提供的工作流文件拖入 ComfyUI 界面,从GitHub上下载或者从ComfyUI-WanVideoWrapper
    /example_workflows文件夹
字节释出Phantom-Wan-14B!从参考图像中提取关键主体元素生成一致性视频
  • 下载对应的 Phantom 模型(WAN-1.3B 或 WAN-14B)
  • 加载参考图像 + 输入文本指令,开始生成视频
字节释出Phantom-Wan-14B!从参考图像中提取关键主体元素生成一致性视频

⚠️ 注意:Phantom-Wan-14B 体积较大,生成过程耗时较长,推荐在云端平台运行以提升效率。

© 版权声明

相关文章

暂无评论

none
暂无评论...