ComfyUI_SoX_Effects：61种音频效果一站式处理节点，AI语音后处理利器

28 0

ComfyUI_SoX_Effects是开发者dsidlo基于经典音频处理库**SoX（Sound eXchange）**打造的ComfyUI自定义节点包，核心价值是让用户在ComfyUI可视化框架内，完成61种专业音频效果的叠加、处理与导出，大幅增强生成式AI在音频处理、语音后处理、音频创作等场景的能力，尤其适配AI角色语音优化、生成音频润色、多音轨混合等需求。

GitHub：https://github.com/dsidlo/ComfyUI_SoX_Effects

插件采用“效果堆叠+统一应用”的独特工作流逻辑，音频仅在最终节点处理，兼顾操作灵活性与运行效率，同时支持频谱图生成、多声道音频混合等进阶功能，是ComfyUI音频工作流的必备工具。

ComfyUI_SoX_Effects：61种音频效果一站式处理节点，AI语音后处理利器

核心特性：61种效果全覆盖，灵活工作流+进阶功能

1. 海量效果支持，覆盖全场景音频处理

插件内置61种SoX原生音频效果，按使用场景分为三大类，满足基础调音、语音优化、创意音效等所有需求：

Voice（语音专用）：专为AI角色语音后处理设计，包含变声、降噪、均衡、混响、语速调整等效果，解决AI生成语音生硬、干涩、有杂音等问题。
Effects（通用效果）：基础音频处理效果，涵盖滤波、压缩、延迟、合唱、相位、失真等，适配音乐创作、音频润色、创意音效设计。
Utilities（工具类）：音频实用功能，包含格式转换、声道调整、音量归一化、静音裁剪等，完善音频工作流闭环。

2. 独特工作流逻辑：效果堆叠，统一应用

插件采用“分步堆叠效果+最终统一处理”的工作流，区别于传统“单节点单效果”模式，灵活性与效率拉满，核心逻辑如下：

Load-Audio（加载音频） ---> Sox-Effect-1（效果1） --- Sox-Effect-N（效果N） ---> Sox-Apply（统一应用） ---> Save-Audio（保存音频）

效果直通堆叠：每个Sox效果节点仅“记录”效果参数，不修改音频流，音频直接传递至下一个节点；所有效果参数会按顺序累积堆叠，形成“效果栈”。
统一处理触发：音频仅在Sox-Apply节点被最终处理，该节点会按工作流中的顺序，将所有累积的效果栈一次性应用到音频上，避免多次处理导致的音频损耗。
特殊节点例外：**Sox-Spectogram（频谱图）**节点独立工作，会生成当前音频的频谱图图像，但不修改原始音频，也不添加效果参数，仅做可视化输出。

3. 进阶功能：多声道混合+频谱图生成+调试支持

五声道音频复用器（2026-01-28新增）：新增SoxUtilMuxAudio5-1节点，支持5声道音频混合，提供平均、线性求和、RMS功率、最大振幅4种混合模式，适配多音轨合成、音频叠加等场景；其中RMS功率、最大振幅模式支持自动音量平衡检测与音轨特征化，优化混合效果。
频谱图可视化：Sox-Spectogram节点可生成音频频谱图图像，直观查看音频频率分布，便于调试与分析。
便捷调试：支持将dbg-text连接至预览文本节点，实时查看累积的Sox效果参数栈，清晰掌握效果应用顺序，快速排查问题。

4. 技术优化：兼容Torch Audio，兼顾效率与兼容性

插件正逐步优化底层实现，优先使用torchaudio.sox_effects实现效果处理（效率更高、兼容性更好），仅在Torch Audio缺失的功能中保留原生SoX实现，平衡运行速度与效果覆盖度，同时降低环境依赖冲突。

核心工作流与节点详解

1. 标准音频效果处理工作流（最常用）

这是插件的核心工作流，适用于叠加多种效果处理单音频，步骤清晰、操作简单：

Load-Audio：加载本地音频文件（支持MP3、WAV、FLAC等常见格式），输出原始音频流。
Sox-Effect系列节点：依次添加需要的效果节点（如变声、降噪、混响），每个节点仅设置效果参数，音频直通传递。
Sox-Apply：核心处理节点，接收累积的效果栈与最终音频流，统一应用所有效果，输出处理后的音频。
Save-Audio：保存处理后的音频到本地，完成整个流程。

2. 频谱图生成工作流（可视化调试）

Load-Audio ---> Sox-Effect-1 --- Sox-Spectogram ---> Sox-Apply ---> Save-Audio
                                                         |
                                                      Save-Image（保存频谱图）

Sox-Spectogram节点插入效果链中，生成当前音频（未应用后续效果）的频谱图，可单独保存，不影响主音频处理流程。

3. 多声道音频混合工作流（进阶）

Load-Audio1 ---> SoxUtilMuxAudio5-1 ---> Sox-Apply ---> Save-Audio
Load-Audio2 ---> 
Load-Audio3 ---> 
Load-Audio4 ---> 
Load-Audio5 --->

加载5路音频，通过SoxUtilMuxAudio5-1选择混合模式，完成多音轨混合后，再叠加效果或直接导出。

关键节点说明

Sox-Effect系列节点（效果节点）

输入：audio（音频流）、sox_params（上一级效果栈）
输出：audio（原始音频直通）、sox_params（新增当前效果参数后的新栈）
特点：无音频处理，仅参数堆叠，可无限叠加，顺序决定最终效果。

Sox-Apply（统一应用节点）

输入：audio（最终音频流）、sox_params（完整效果栈）
输出：processed_audio（应用所有效果后的音频）
作用：工作流核心，触发所有效果的实际处理，必须放在效果链最后。

Sox-Spectogram（频谱图节点）

输入：audio（当前音频流）、sox_params（当前效果栈）
输出：audio（原始音频直通）、sox_params（原效果栈，无修改）、spectogram（频谱图图像）
特点：独立可视化，不影响主流程，可插入效果链任意位置。

SoxUtilMuxAudio5-1（五声道复用器）

输入：5路独立音频流（audio1-audio5）
输出：混合后的单路音频流
混合模式：
- 平均：对峰值不敏感，适合平滑电平检测，常规混合首选。
- 线性求和：保留瞬态细节与相位关系，适合音乐、音效叠加。
- RMS功率：反映感知响度，适配电平表、动态处理，支持自动音量平衡。
- 最大振幅：捕捉样本间峰值，避免失真，适合高保真音频混合。
依赖：需Torch Audio环境支持。

安装步骤

1. 克隆插件仓库

进入ComfyUI的custom_nodes目录，执行克隆命令：

cd ComfyUI/custom_nodes
git clone https://github.com/dsidlo/ComfyUI_SoX_Effects.git

2. 安装依赖

进入插件目录，安装所需Python依赖（含SoX、Torch Audio等）：

cd ComfyUI_SoX_Effects
pip install -r requirements.txt

3. 重启ComfyUI

关闭当前ComfyUI服务，重新启动，在节点搜索框输入sox，即可找到所有相关节点，安装完成。

调试技巧

参数预览调试：将任意Sox效果节点的dbg-text输出，连接至PreviewTextNode（推荐GripTape的预览节点），实时查看累积的Sox参数栈，确认效果顺序与参数是否正确。
分步测试：复杂效果链可分步添加，每添加一个效果就通过Sox-Apply处理并试听，避免多效果叠加后难以定位问题。
频谱图辅助：插入Sox-Spectogram节点，对比处理前后的频谱图，直观判断效果（如滤波、均衡）是否生效。