ComfyUI-LatentSyncWrapper:基于字节跳动唇音同步框架LatentSync的非官方ComfyUI节点

ComfyUI-LatentSyncWrapper是专门为ComfyUI设计的非官方节点,基于字节跳动的LatentSync框架,实现视频中嘴唇动作与音频输入的同步。借助这一工具,用户可以在ComfyUI环境中轻松生成唇音同步的视频内容。

先决条件

在安装和使用此节点之前,请确保您的ComfyUI 已经满足以下条件:

  1. ComfyUI 已正确安装并能够正常运行
  2. ComfyUI_AceNodes 节点,用于处理视频输入和输出。
  3. FFmpeg 已安装,并且路径已添加到系统的环境变量中(相关:ffmpeg安装教程

安装步骤

目前此节点还没在ComfyUI Manager上架,你可以手动进行安装,确认所有先决条件均已满足后,按照以下步骤进行安装:

ComfyUI-LatentSyncWrapper仓库克隆到ComfyUI的custom_nodes目录中:

cd ComfyUI/custom_nodes 
git clone https://github.com/ShymuelRonen/ComfyUI-LatentSyncWrapper.git 
cd ComfyUI-LatentSyncWrapper
pip install -r requirements.txt

模型下载

首次使用时,节点将自动从HuggingFace下载所需的模型文件。这些模型包括:

  • LatentSync UNet模型
  • Whisper音频处理模型

您也可以选择手动下载模型,以避免初次运行时的网络延迟。模型可以从HuggingFace仓库获取,下载后请确保检查点文件放置在正确的路径下。

使用方法

  1. 加载视频:使用AceNodes视频加载器选择输入视频文件。
  2. 加载音频:使用ComfyUI音频加载器加载音频文件。
  3. 设置种子值(可选):如果您希望每次生成的结果一致,可以设置一个随机种子值(默认值为1247)。
  4. 连接节点:将视频和音频输入连接到LatentSync节点
  5. 运行工作流:启动工作流,处理后的视频将保存到ComfyUI的输出目录中。

节点参数

  • video_path: 输入视频文件的路径。
  • audio: 从AceNodes音频加载器获取的音频输入。
  • seed: 用于生成可重复结果的随机种子(默认值:1247)。

已知限制

  • 最佳效果:该节点最适合清晰、正面拍摄的人脸视频。
  • 不支持动漫/卡通人脸:目前仅适用于真实人脸视频。
  • 帧率要求:视频应为25 FPS,若不符合将自动转换。
  • 人脸可见性:视频中的人脸应在整个过程中保持可见。
0

评论0

没有账号?注册  忘记密码?