
Ai好记
Ai好记是为知识管理设计的多模态知识管理工具。它可以将全网音视频内容统一解析,生成结构化笔记、思维导图和 AI 总结,让碎片化的学习资料像Windows系统中的文件一样,有序可查、逻辑清晰、易于调用。
Voice Clone Studio是一个基于 Gradio 的语音克隆与语音设计 Web 界面,由 Qwen3-TTS 和 VibeVoice 驱动。支持使用 Whisper 或 VibeVoice-asr 进行自动转录。
Voice Clone Studio 是一个基于 Gradio 的开源 Web 应用,支持在本地设备上完成语音克隆、语音设计、多说话人对话生成与音频预处理。它由 Qwen3-TTS(阿里)和 VibeVoice(微软)两大语音引擎驱动,全程无需联网,数据不出设备,适合对隐私、可控性和生成质量有较高要求的创作者。
无论是制作播客、有声书,还是生成角色对话、AI 旁白,Voice Clone Studio 都提供了一套完整、灵活且可离线运行的工作流。
使用统一脚本格式 [N]: 编写对话,系统自动分配说话人:
[1]: Hey, how's it going?
[2]: I'm doing great, thanks for asking!
| 编号 | 说话人 | 语言 | 特点 |
|---|---|---|---|
| [1] | Vivian | 中文 | 明亮,略带锋芒 |
| [2] | Serena | 中文 | 温暖温柔 |
| [3] | Uncle_Fu | 中文 | 醇厚低沉 |
| [4] | Dylan | 中文(北京) | 清晰自然 |
| [5] | Eric | 中文(四川) | 活泼沙哑 |
| [6] | Ryan | 英语 | 节奏感强 |
| [7] | Aiden | 英语 | 阳光清晰 |
| [8] | Ono_Anna | 日语 | 活泼灵动 |
| [9] | Sohee | 韩语 | 情感丰富 |
无需录音,仅通过自然语言描述即可生成新声音:
“年轻女性,温暖友好,略带英国口音,语速适中”
系统将基于描述生成匹配的语音模型,适用于角色创作或实验性项目。
内置完整音频处理工具链:
.wav + .txt 配对文件所有生成的音频自动保存至 output/ 目录,支持在 UI 中直接播放、下载或删除。
| 功能 | 模型选项 | 推荐场景 | 显存需求(估算) |
|---|---|---|---|
| 语音克隆 | Base (Small/Large) | 从样本克隆声音 | Small: ~4GB / Large: ~8GB |
| 预设声音对话 | CustomVoice | 使用 Qwen 9 种预设说话人 | 同上 |
| 语音设计 | VoiceDesign (1.7B only) | 从文本描述生成新声音 | ~8GB |
| 长篇多说话人 | VibeVoice | 播客、有声书、90 分钟连续输出 | Small: ~6GB / Large: ~10GB+ |
| 转录 | Whisper (Medium) | 音频/视频自动转文字 | ~2GB |
所有模型首次使用时自动从 Hugging Face 下载,无需手动配置。
git clone https://github.com/FranckyB/Voice-Clone-Studio.git
cd Voice-Clone-Studio
setup.bat # 自动安装依赖、PyTorch、SOX、FFmpeg
launch.bat # 启动 Web UI
# 创建虚拟环境
python -m venv venv && source venv/bin/activate # Windows: venv\Scripts\activate
# 安装 PyTorch(CUDA 13.0)
pip install torch==2.9.1 torchaudio --index-url https://download.pytorch.org/whl/cu130
# 安装依赖
pip install -r requirements.txt
# 安装 SOX 和 FFmpeg(按平台选择命令,详见原文)
# 启动
python voice_clone_studio.py
访问 http://127.0.0.1:7860 即可使用。
.mp4、.mov 等视频,自动提取音频用于克隆






