AudioGhost AI:基于 SAM-Audio 的面向对象音频分离工具
AudioGhost AI:基于 SAM-Audio 的面向对象音频分离工具

AudioGhost AI:基于 SAM-Audio 的面向对象音频分离工具最新版

官方版无广告18

AudioGhost AI基于 Meta Facebook AI 发布的 SAM-Audio(Segment Anything Model for Audio),提供图形界面、内存优化与全流程本地部署支持。

更新日期:
2025年12月26日
语言:
中文
平台:

1.7MB0 人已下载 手机查看

用一句话描述你想提取的声音 ——“人声”、“狗吠”、“背景鼓点”——AudioGhost 即可将其从复杂音频中精准分离。

AudioGhost AI

AudioGhost AI基于 Meta Facebook AI 发布的 SAM-Audio(Segment Anything Model for Audio),提供图形界面、内存优化与全流程本地部署支持。

AudioGhost AI

核心特性

  • 文本引导分离
    无需手动选频或切片,仅需自然语言提示(如 “提取演讲者声音” 或 “移除背景音乐”),模型自动隔离目标声源。
  • 显存优化(精简模式)
    通过裁剪非必要组件,将 Large 模型显存从 11–12GB 降至约 4–10GB(依精度而定),使 RTX 3060 等主流显卡也能运行。
  • 现代 UI + 波形可视化
    采用毛玻璃美学设计,支持原始/提取/剩余音频的三轨混音器预览,直观对比分离效果。
  • 实时进度追踪
    长音频自动分段处理,前端实时显示任务状态与剩余时间。
  • 灵活输出
    支持 “提取目标声” 或 “移除目标声(保留其余)” 两种模式,满足不同后期需求。

路线图(即将上线)

  • 视频音频分离:上传 MP4,直接从视频中提取对应声源;
  • 视觉提示交互:点击视频画面中的对象(如汽车、人),自动分离其关联声音(集成 SAM 3 视觉-音频对齐能力)。

系统要求

组件要求
Python3.11+
GPUCUDA 兼容显卡(精简模式 ≥4GB 显存,完整模式 ≥12GB)
CUDA12.6(推荐)
Node.js18+(用于前端)
其他FFmpeg 与 Redis(安装脚本自动配置)

💡 首次运行会自动下载模型(约 2–5GB,依模型大小而定),请确保网络畅通。

快速开始(推荐)

首次安装

# Windows 用户运行(自动创建 Conda 环境、下载 Redis、安装依赖)
install.bat

日常使用

start.bat   # 启动后端 API、Celery 任务队列、前端服务
stop.bat    # 停止所有服务

打开浏览器访问:http://localhost:3000

手动部署(高级用户)

# 1. 创建 Conda 环境
conda create -n audioghost python=3.11 -y
conda activate audioghost

# 2. 安装 CUDA 12.6 版 PyTorch
pip install torch==2.9.0+cu126 torchvision==0.24.0+cu126 torchaudio==2.9.0+cu126 \
  --index-url https://download.pytorch.org/whl/cu126

# 3. 安装 FFmpeg(用于 TorchCodec)
conda install -c conda-forge ffmpeg -y

# 4. 安装 SAM-Audio(需 Hugging Face 访问权限)
pip install git+https://github.com/facebookresearch/sam-audio.git

# 5–7. 安装前后端依赖(略,详见原文)

# 8. 启动服务(三终端并行)
# 终端1: uvicorn main:app --port 8000
# 终端2: celery -A workers.celery_app worker --loglevel=info --pool=solo
# 终端3: npm run dev

连接 Hugging Face

  1. 点击 UI 中 “Connect HuggingFace”
  2. 申请模型访问权限:facebook/sam-audio-large
  3. 创建 Token:Hugging Face Tokens
  4. 粘贴 Token 完成认证(存储于 backend/.hf_token

使用流程

  1. 上传音频(MP3 / WAV / FLAC)
  2. 输入提示词
    • “主唱人声”
    • “环境雨声”
    • “键盘打字声”
    • “汽车引擎”
  3. 选择模式:Extract(提取) 或 Remove(移除)
  4. 点击 Start,等待处理完成
  5. 在混音器中试听,点击下载 WAV 文件

性能基准(RTX 4090,4:26 音频)

显存占用(精简模式,bfloat16)

模型显存推荐 GPU
Small~6 GBRTX 3060 / 4060
Base~7 GBRTX 3070 / 4070
Large~10 GBRTX 3080 / 4080

💡 启用 High Quality Mode(float32) 可提升分离精度,显存增加 2–3GB。

处理速度(25秒/段)

模型首次运行后续运行实时倍率
Small~78s~25s10x
Base~100s~29s9x
Large~130s~41s6.5x

首次运行包含模型下载与加载,后续使用缓存加速。

内存优化原理

AudioGhost 通过以下方式降低显存需求(最高节省 40%):

裁剪组件节省显存
视觉编码器~2 GB
视觉排序器~2 GB
文本排序器~2 GB
片段预测器~1–2 GB

实现策略:

  • 仅处理纯音频,禁用所有视频相关模块;
  • 默认 predict_spans=False + reranking_candidates=1
  • 使用 bfloat16 混合精度(可选 float32);
  • 长音频自动切分为 25 秒片段流式处理。

📡 API 参考(供集成)

POST /api/separate/

表单参数:

  • file: 音频文件
  • description: 文本提示(如 “人声”)
  • modeextract 或 remove
  • model_sizesmall / base / large(默认 base

响应:

{ "task_id": "a1b2c3", "status": "pending" }
GET /api/separate/{task_id}/status
GET /api/separate/{task_id}/download/ghost    # 提取部分
GET /api/separate/{task_id}/download/clean    # 移除后剩余

常见问题

CUDA 内存不足

  • 改用 small 模型;
  • 确认日志含 “Optimizing model for low VRAM”;
  • 关闭 Chrome、OBS 等 GPU 占用程序。

TorchCodec DLL 加载失败

  • 降级 FFmpeg 至 7.x;
  • 将 FFmpeg bin 目录加入系统 PATH

Hugging Face 401 错误

  • 重新在 UI 中认证;
  • 检查 backend/.hf_token 文件是否存在且有效。

相关软件

Superwhisper 

Superwhisper  - 最新版

Superwhisper 不只是一个语音转文字工具,而是一个语音优先的写作助手。它让创作从“敲键盘”变为“开口说”,特别适合需要快速记录、频繁写邮件、或希望减少重复输入的用户。

暂无评论

none
暂无评论...