AudioGhost AI：基于 SAM-Audio 的面向对象音频分离工具最新版

官方版无广告23

AudioGhost AI基于 Meta Facebook AI 发布的 SAM-Audio（Segment Anything Model for Audio），提供图形界面、内存优化与全流程本地部署支持。

更新日期：

2025年12月26日

分类标签：

语音应用AudioGhost AISAM-Audio

语言：

中文

平台：

1.7MB0 人已下载手机查看

用一句话描述你想提取的声音 ——“人声”、“狗吠”、“背景鼓点”——AudioGhost 即可将其从复杂音频中精准分离。

AudioGhost AI基于 Meta Facebook AI 发布的 SAM-Audio（Segment Anything Model for Audio），提供图形界面、内存优化与全流程本地部署支持。

核心特性

文本引导分离
无需手动选频或切片，仅需自然语言提示（如 “提取演讲者声音” 或 “移除背景音乐”），模型自动隔离目标声源。
显存优化（精简模式）
通过裁剪非必要组件，将 Large 模型显存从 11–12GB 降至约 4–10GB（依精度而定），使 RTX 3060 等主流显卡也能运行。
现代 UI + 波形可视化
采用毛玻璃美学设计，支持原始/提取/剩余音频的三轨混音器预览，直观对比分离效果。
实时进度追踪
长音频自动分段处理，前端实时显示任务状态与剩余时间。
灵活输出
支持 “提取目标声” 或 “移除目标声（保留其余）” 两种模式，满足不同后期需求。

路线图（即将上线）

视频音频分离：上传 MP4，直接从视频中提取对应声源；
视觉提示交互：点击视频画面中的对象（如汽车、人），自动分离其关联声音（集成 SAM 3 视觉-音频对齐能力）。

系统要求

组件	要求
Python	3.11+
GPU	CUDA 兼容显卡（精简模式 ≥4GB 显存，完整模式 ≥12GB）
CUDA	12.6（推荐）
Node.js	18+（用于前端）
其他	FFmpeg 与 Redis（安装脚本自动配置）

💡 首次运行会自动下载模型（约 2–5GB，依模型大小而定），请确保网络畅通。

快速开始（推荐）

首次安装

# Windows 用户运行（自动创建 Conda 环境、下载 Redis、安装依赖）
install.bat

日常使用

start.bat   # 启动后端 API、Celery 任务队列、前端服务
stop.bat    # 停止所有服务

打开浏览器访问：http://localhost:3000

手动部署（高级用户）

# 1. 创建 Conda 环境
conda create -n audioghost python=3.11 -y
conda activate audioghost

# 2. 安装 CUDA 12.6 版 PyTorch
pip install torch==2.9.0+cu126 torchvision==0.24.0+cu126 torchaudio==2.9.0+cu126 \
  --index-url https://download.pytorch.org/whl/cu126

# 3. 安装 FFmpeg（用于 TorchCodec）
conda install -c conda-forge ffmpeg -y

# 4. 安装 SAM-Audio（需 Hugging Face 访问权限）
pip install git+https://github.com/facebookresearch/sam-audio.git

# 5–7. 安装前后端依赖（略，详见原文）

# 8. 启动服务（三终端并行）
# 终端1: uvicorn main:app --port 8000
# 终端2: celery -A workers.celery_app worker --loglevel=info --pool=solo
# 终端3: npm run dev

连接 Hugging Face

点击 UI 中 “Connect HuggingFace”
申请模型访问权限：facebook/sam-audio-large
创建 Token：Hugging Face Tokens
粘贴 Token 完成认证（存储于 backend/.hf_token）

使用流程

上传音频（MP3 / WAV / FLAC）
输入提示词：
- “主唱人声”
- “环境雨声”
- “键盘打字声”
- “汽车引擎”
选择模式：Extract（提取） 或 Remove（移除）
点击 Start，等待处理完成
在混音器中试听，点击下载 WAV 文件

性能基准（RTX 4090，4:26 音频）

显存占用（精简模式，bfloat16）

模型	显存	推荐 GPU
Small	~6 GB	RTX 3060 / 4060
Base	~7 GB	RTX 3070 / 4070
Large	~10 GB	RTX 3080 / 4080

💡 启用 High Quality Mode（float32） 可提升分离精度，显存增加 2–3GB。

处理速度（25秒/段）

模型	首次运行	后续运行	实时倍率
Small	~78s	~25s	10x
Base	~100s	~29s	9x
Large	~130s	~41s	6.5x

首次运行包含模型下载与加载，后续使用缓存加速。

内存优化原理

AudioGhost 通过以下方式降低显存需求（最高节省 40%）：

裁剪组件	节省显存
视觉编码器	~2 GB
视觉排序器	~2 GB
文本排序器	~2 GB
片段预测器	~1–2 GB

实现策略：

仅处理纯音频，禁用所有视频相关模块；
默认 predict_spans=False + reranking_candidates=1；
使用 bfloat16 混合精度（可选 float32）；
长音频自动切分为 25 秒片段流式处理。

📡 API 参考（供集成）

POST /api/separate/

表单参数：

file: 音频文件
description: 文本提示（如 “人声”）
mode: extract 或 remove
model_size: small / base / large（默认 base）

响应：

{ "task_id": "a1b2c3", "status": "pending" }

GET /api/separate/{task_id}/status
GET /api/separate/{task_id}/download/ghost    # 提取部分
GET /api/separate/{task_id}/download/clean    # 移除后剩余

常见问题

CUDA 内存不足

改用 small 模型；
确认日志含 “Optimizing model for low VRAM”；
关闭 Chrome、OBS 等 GPU 占用程序。

TorchCodec DLL 加载失败

降级 FFmpeg 至 7.x；
将 FFmpeg bin 目录加入系统 PATH。

Hugging Face 401 错误

重新在 UI 中认证；
检查 backend/.hf_token 文件是否存在且有效。

去官方网站了解更多

Readify - 最新版

Readify 是一款集电子书阅读与高质量 AI 语音朗读于一体的工具，旨在将任意文本内容转化为自然流畅的有声体验。它不依赖传统机械式 TTS（文本转语音），而是基于大语言模型技术，模拟人类朗读的节奏、语调与停顿，显著提升听书体验。

语音应用 # Readify # TTS # 电子书

0260 1

闪电说 - 最新版

闪电说是端侧优先的 AI 语音输入法，本地语音模型带来毫秒级响应，是追求极致速度的极佳选择。告别打字，用闪电说 AI 语音输入法快 4 倍，AI 对话、AI 编程、文档写作、聊天回复......全场景都能用，支持所有应用。

语音应用 # 语音输入法 # 闪电说

0270 0

Superwhisper - 最新版

Superwhisper 不只是一个语音转文字工具，而是一个语音优先的写作助手。它让创作从“敲键盘”变为“开口说”，特别适合需要快速记录、频繁写邮件、或希望减少重复输入的用户。

语音应用 # Superwhisper

0260 0

查看完整榜单

AudioGhost AI：基于 SAM-Audio 的面向对象音频分离工具最新版

核心特性

路线图（即将上线）

系统要求

快速开始（推荐）

首次安装

日常使用

手动部署（高级用户）

连接 Hugging Face

使用流程

性能基准（RTX 4090，4:26 音频）

显存占用（精简模式，bfloat16）

处理速度（25秒/段）

内存优化原理

📡 API 参考（供集成）

常见问题

CUDA 内存不足

TorchCodec DLL 加载失败

Hugging Face 401 错误

相关软件

Readify - 最新版

闪电说 - 最新版

Superwhisper - 最新版

暂无评论

软件

ChatWise - 最新版

Clipchamp - 最新版

Klee - 最新版

NextChat - 最新版

Upscayl - 最新版

Nanobrowser - 最新版

S.H.I.T

新WorkBuddy

新QClaw

CoPaw

新ArkClaw

新AutoClaw

AudioGhost AI：基于 SAM-Audio 的面向对象音频分离工具最新版

核心特性

路线图（即将上线）

系统要求

快速开始（推荐）

首次安装

日常使用

手动部署（高级用户）

连接 Hugging Face

使用流程

性能基准（RTX 4090，4:26 音频）

显存占用（精简模式，bfloat16）

处理速度（25秒/段）

内存优化原理

📡 API 参考（供集成）

常见问题

CUDA 内存不足

TorchCodec DLL 加载失败

Hugging Face 401 错误

相关软件

软件

标签云

网址

S.H.I.T

新WorkBuddy

新QClaw

CoPaw

新ArkClaw

新AutoClaw