ComfyUI-LatentSyncWrapper是专门为ComfyUI设计的非官方节点,基于字节跳动的LatentSync框架,实现视频中嘴唇动作与音频输入的同步。借助这一工具,用户可以在ComfyUI环境中轻松生成唇音同步的视频内容。
先决条件
在安装和使用此节点之前,请确保您的ComfyUI 已经满足以下条件:
- ComfyUI 已正确安装并能够正常运行
- ComfyUI_AceNodes 节点,用于处理视频输入和输出。
- FFmpeg 已安装,并且路径已添加到系统的环境变量中(相关:ffmpeg安装教程)
安装步骤
目前此节点还没在ComfyUI Manager上架,你可以手动进行安装,确认所有先决条件均已满足后,按照以下步骤进行安装:
将ComfyUI-LatentSyncWrapper仓库克隆到ComfyUI的custom_nodes
目录中:
cd ComfyUI/custom_nodes
git clone https://github.com/ShymuelRonen/ComfyUI-LatentSyncWrapper.git
cd ComfyUI-LatentSyncWrapper
pip install -r requirements.txt
模型下载
首次使用时,节点将自动从HuggingFace下载所需的模型文件。这些模型包括:
- LatentSync UNet模型
- Whisper音频处理模型
您也可以选择手动下载模型,以避免初次运行时的网络延迟。模型可以从HuggingFace仓库获取,下载后请确保检查点文件放置在正确的路径下。
使用方法
- 加载视频:使用AceNodes视频加载器选择输入视频文件。
- 加载音频:使用ComfyUI音频加载器加载音频文件。
- 设置种子值(可选):如果您希望每次生成的结果一致,可以设置一个随机种子值(默认值为1247)。
- 连接节点:将视频和音频输入连接到LatentSync节点。
- 运行工作流:启动工作流,处理后的视频将保存到ComfyUI的输出目录中。
节点参数
- video_path: 输入视频文件的路径。
- audio: 从AceNodes音频加载器获取的音频输入。
- seed: 用于生成可重复结果的随机种子(默认值:1247)。
已知限制
- 最佳效果:该节点最适合清晰、正面拍摄的人脸视频。
- 不支持动漫/卡通人脸:目前仅适用于真实人脸视频。
- 帧率要求:视频应为25 FPS,若不符合将自动转换。
- 人脸可见性:视频中的人脸应在整个过程中保持可见。
评论0