字节释出Phantom-Wan-14B！从参考图像中提取关键主体元素生成一致性视频

548 0

字节跳动于4月份正式开源了其统一视频生成框架 Phantom，这是一个专注于“主体一致性（Subject-to-Video, S2V）”的视频生成框架。它能够从参考图像中提取关键主体元素，并结合文本描述，生成符合预期、视觉一致的高质量视频。

字节跳动推出统一的视频生成框架Phantom ：通过跨模态对齐实现主体一致性的视频生成

什么是 Phantom？

Phantom 是一个跨模态对齐驱动的视频生成框架，核心目标是确保视频中的主体（如人物、动物或物体）在生成过程中保持与输入图像和文本的高度一致。

它不仅支持单个主体的视频生成，还支持多主体交互场景，适用于数字人、虚拟试穿、AI短片创作等多种应用场景。

核心功能亮点

✅ 主体一致性视频生成（S2V）

单主体生成：输入一张人物/物体图片 + 文本指令（如“她在跳舞”），即可生成对应动作的视频。
多主体生成：输入多张图片 + 描述（如“一个人和一只狗在公园玩耍”），可生成互动式视频。

✅ 面部 ID 保持

在生成人物视频时，Phantom 能够有效保留原始面部特征，避免身份漂移问题，特别适合需要高度真实感的数字人应用。

模型演进与现状

字节跳动自今年4月起已陆续发布多个 Phantom 模型：

模型名称	参数量	发布时间	特点
Phantom-Wan-1.3B	1.3B	2024年4月21日	小型模型，适合本地运行，但效果一般
Phantom-Wan-14B	14B	2025年5月27日	大型模型，生成质量高，需高性能 GPU 支持

据官方透露，未来还将推出：

Phantom-Wan-14B Pro
相关训练数据集
完整训练代码

此外，开发者 kijai的ComfyUI插件ComfyUI-WanVideoWrapper早在4月就已经支持此模型，并发布了量化版本模型，进一步降低了本地部署门槛。

模型：https://huggingface.co/bytedance-research/Phantom
GitHub：https://github.com/kijai/ComfyUI-WanVideoWrapper
量化版模型：https://huggingface.co/Kijai/WanVideo_comfy/tree/main
量化版：https://www.modelscope.cn/models/Kijai/WanVideo_comfy/files（国内用户请从此下载）

如何使用 Phantom-Wan系列模型？

安装所需插件，如ComfyUI-WanVideoWrapper
将提供的工作流文件拖入 ComfyUI 界面，从GitHub上下载或者从ComfyUI-WanVideoWrapper
/example_workflows文件夹

下载对应的 Phantom 模型（WAN-1.3B 或 WAN-14B）
加载参考图像 + 输入文本指令，开始生成视频

⚠️ 注意：Phantom-Wan-14B 体积较大，生成过程耗时较长，推荐在云端平台运行以提升效率。

文章版权归作者所有，未经允许请勿转载。

开源版GPT-4o！字节跳动开源新一代多模态模型 BAGEL：多模态理解、图像生成、图像编辑，还能“思考”

图像模型 # BAGEL # GPT-4o # 多模态模型

8个月前

07530

ComfyUI v0.3.0版本正式推出，支持FLUX.1 Tools系列开源模型

工作流 # ComfyUI v0.3.0 # controlnet # Fill

1年前

04450

字节跳动推出文生图模型SDXL-Lightning：基于SDXL1.0基础模型提炼

新技术 # SDXL-Lightning # SDXL1.0 # 字节跳动

2年前

06160

ComfyUI已通过 API 节点（Beta 版）原生支持OpenAI图像模型GPT-Image-1

工作流 # ComfyUI # GPT-Image-1 # OpenAI

9个月前

06710

暂无评论

暂无评论...

字节释出Phantom-Wan-14B！从参考图像中提取关键主体元素生成一致性视频

什么是 Phantom？

核心功能亮点

✅ 主体一致性视频生成（S2V）

✅ 面部 ID 保持

模型演进与现状

如何使用 Phantom-Wan系列模型？

ComfyUI已原生支持Wan2.1-VACE模型：一个模型中完成多种生成任务

ComfyUI API Nodes节点第二波大更新正式上线：支持 LLM、3D 和更多高级功能

相关文章

开源版GPT-4o！字节跳动开源新一代多模态模型 BAGEL：多模态理解、图像生成、图像编辑，还能“思考”

ComfyUI v0.3.0版本正式推出，支持FLUX.1 Tools系列开源模型

字节跳动推出文生图模型SDXL-Lightning：基于SDXL1.0基础模型提炼

ComfyUI已通过 API 节点（Beta 版）原生支持OpenAI图像模型GPT-Image-1

暂无评论

文章

ComfyUI 已支持 Z-Image Turbo：轻量、高效、中文友好，本地部署指南来了

新Claude Code 2.1.0重磅更新：代理工作流全面升级，开发者体验再优化

LM Studio Nodes for ComfyUI：让本地模型无缝融入创意ComfyUI工作流

新Gmail 新增 AI 收件箱、邮件摘要与校对功能，Gemini 深度整合

LayerDiffusion：可生成高质量的透明图像和图层

2DGS：从多视角图像重建和渲染三维场景

人生 K 线

Fogsight (雾象)

NotebookLM

Next AI Draw.io

新KEJILION.SH

Google AI Studio

字节释出Phantom-Wan-14B！从参考图像中提取关键主体元素生成一致性视频

什么是 Phantom？

核心功能亮点

✅ 主体一致性视频生成（S2V）

✅ 面部 ID 保持

模型演进与现状

如何使用 Phantom-Wan系列模型？

ComfyUI已原生支持Wan2.1-VACE模型：一个模型中完成多种生成任务

ComfyUI API Nodes节点第二波大更新正式上线：支持 LLM、3D 和更多高级功能

相关文章

文章

标签云

网址

人生 K 线

Fogsight (雾象)

NotebookLM

Next AI Draw.io

新KEJILION.SH

Google AI Studio