CosyVoice Desktop：在你自己的电脑上，制作多角色有声小说

CosyVoice Desktop：在你自己的电脑上，制作多角色有声小说

CosyVoice Desktop：在你自己的电脑上，制作多角色有声小说最新版

官方版无广告20

CosyVoice Desktop 是一个完全本地运行的桌面端有声内容生成工具，基于 CosyVoice3-0.5B 大模型构建，无需联网、无需订阅，打开即用，支持多角色配音、语音修补、跨语言合成，并提供完整的项目管理与音频导出流程。

更新日期：

2025年12月24日

分类标签：

语音应用CosyVoice Desktop

语言：

中文

平台：

2.15G1 人已下载手机查看

如果你是小说作者、播客主理人、广播剧创作者，或正在尝试将文字转化为有声内容，那么「配音成本高」「角色音色单一」「合成流程复杂」可能是你绕不开的障碍。

CosyVoice Desktop

CosyVoice Desktop 是一个完全本地运行的桌面端有声内容生成工具，基于 CosyVoice3-0.5B 大模型构建，无需联网、无需订阅，打开即用，支持多角色配音、语音修补、跨语言合成，并提供完整的项目管理与音频导出流程。

为什么选择本地部署？

与云端 TTS 服务不同，CosyVoice Desktop 的所有推理均在你的电脑上完成：

无需上传文本，保障内容隐私
无 API 调用限制，可批量生成
支持自定义参考音频，实现角色音色复刻
断网也能用，适合敏感或离线创作场景

硬件要求：建议显存 ≥4GB（支持 CUDA 12.8，已适配 RTX 50 系显卡），亦可在 CPU 模式下运行（速度较慢）。

四种语音生成模式，覆盖多元创作需求

零样本复刻（Zero-shot Cloning）
仅需一段参考音频（3–10 秒），即可复刻其音色朗读任意文本。适合快速创建角色旁白。
精细控制（Fine-grained Control）
通过参考文本 + 参考音频 + 音素对齐，实现更精准的语调、停顿与情感控制，适合关键对白。
指令控制（Instruction-based）
用自然语言指令调整语音风格，例如：“用温和的语气朗读”“加快语速，表现紧张感”。
语音修补（Voice Inpainting）
对已有合成音频的某一段进行重生成（如修正发音错误、替换语气），无需重跑全文。

所有模式均支持中文、英文、日文、韩文及部分方言，跨语言合成能力持续优化中。

CosyVoice Desktop

一站式工作台：从文本到成品音频

智能文本编辑器

支持标准编辑操作（复制/粘贴/撤销）
按段落绑定语音配置，不同角色以颜色标记区分（如红色=主角，蓝色=旁白）
生成后自动顺序播放各段音频，实时反馈效果

多角色语音管理

创建无限数量的角色配置，包含：模式、参考音频、参考文本、标记颜色
配置以 JSON 格式保存，可导入/导出，便于团队协作或跨项目复用
启动时自动加载上次配置，无需重复设置

自动化输出与合成

音频自动保存至 output/{项目名}/ 目录，结构清晰
内置 FFmpeg（V1.2+），支持一键合并分段音频为完整文件
提供重 Roll 按钮：对不满意段落单独重新生成，不重跑全文

CosyVoice Desktop

开箱即用，但保留灵活性

便携设计：解压即用，自带 Python 环境，不污染系统
模型按需下载：从 v1.3 起，程序本体不再捆绑模型。运行 download_all_models.bat 可选择从 HuggingFace 或 ModelScope 下载（后者对国内用户更友好）
主题切换：支持浅色/深色/自动模式，适配不同工作环境
日志面板：实时显示生成进度、耗时、显存占用与警告信息，便于调试

常见问题与解决方案

“No module named 'PIL'”
因便携环境中缺少 Pillow 库。解决方法：在程序根目录打开终端，执行
python_env\Scripts\pip.exe install Pillow --upgrade
合成音频失败
V1.2 已内置 FFmpeg，通常无需额外配置。若仍失败，请确认系统环境变量中无冲突的旧版 FFmpeg。
语音失真或无声
请确保参考音频语言与待合成文本语言一致。例如：不能用日语参考音频生成中文语音（零样本模式下尤其敏感）。
模型加载失败
检查 pretrained_models/ 目录是否完整，显存是否充足（建议 ≥4GB）。

📦 版本演进：从可用到好用

V1.0（2025.10.7）：基础功能上线
V1.1（2025.10.30）：修复 Pillow 依赖问题
V1.2（2025.12.14）：升级 Torch 2.7 + CUDA 12.8，支持 RTX 50 系；新增设置页、配置记忆、自动输出目录
V1.3（2025.12.16）：升级至 CosyVoice3-0.5B，语音自然度与情感表达显著提升；提供语音修补模式；模型分离，未来将全面迁移至 GitHub 发布

项目计划逐步弃用百度网盘，所有版本将通过 GitHub 提供，提升下载稳定性和社区协作效率。

适合谁用？

网络小说作者：快速生成试听样章
独立播客制作人：低成本实现多角色对话
教育内容创作者：为课程脚本配音
AI 语音爱好者：本地实验 TTS 模型效果

去官方网站了解更多

相关软件

Buzz

Buzz - 最新版

Buzz 是一款功能强大且灵活的转录应用，特别适合需要在本地离线环境中处理音频和视频转录的用户。它支持多种模型和格式，提供了丰富的功能特性，能够满足不同场景下的转录需求。

语音应用 # Buzz # OpenAI # Whisper 模型

02780 4

VoiceFlow

VoiceFlow - 最新版

VoiceFlow是一款本地运行的 Whisper 语音转文字工具，免费、离线、无账户，将 OpenAI 的 Whisper 语音识别能力直接部署到您的 Windows 电脑上。

语音应用 # VoiceFlow # Whisper

0240 0

Krillin AI

Krillin AI - 最新版

Krillin AI 是一款全能型音视频本地化与增强解决方案。这款简约而强大的工具，集音视频翻译、配音、语音克隆于一身，支持横竖屏格式输出，确保在所有主流平台（哔哩哔哩，小红书，抖音，视频号，快手，YouTube，TikTok等）都能完美呈现。

语音应用 # Krillin AI # 字幕翻译 # 翻译

01910 0

暂无评论

none

暂无评论...

日榜周榜月榜

Local Dream

Local Dream - 最新版

Local Dream 是一款能让普通安卓手机在本地运行 Stable Diffusion 模型，无需联网或依赖云端算力。更重要的是，该项目已实现对高通 Hexagon NPU 的硬件加速支持，显著提升推理效率。

533 44

Ollama

Ollama - 最新版

Ollama 是一个开源的框架，专门设计用于简化在本地机器上部署和管理大语言模型，Ollama 提供了简单的命令行界面（CLI），用户可以通过一条命令快速启动和运行大型模型，支持多种预构建的模型。

713 0

Cherry Studio

Cherry Studio - 最新版

Cherry Studio 作为一款全能 AI 助手平台，凭借其广泛的模型兼容性、丰富的功能、高度自定义能力和强大的数据安全保障，成为提升工作效率和激发创造力的理想工具。

1,449 40

OOMOL Studio

OOMOL Studio - 最新版

OOMOL Studio 是一款基于 VSCode 打造的现代化集成开发工具，支持 Windows 和 macOS 两大平台。它通过整合容器化技术、AI 功能和社区资源，简化了开发者的日常工作流程。

627 7

MagicMirror

MagicMirror - 最新版

MagicMirror 以其便捷性、安全性和轻量级设计，为用户提供了一个简单易用的 AI 换脸工具。无论是新手还是专业人士，都能通过它轻松探索更美的自己。

478 0

卡卡字幕助手（VideoCaptioner）

卡卡字幕助手（VideoCaptioner） - 最新版

VideoCaptioner是一款功能强大且易于使用的视频字幕处理工具。它不仅支持语音识别、字幕优化和翻译全流程处理，还提供了丰富的配置选项，满足不同用户的需求。

966 35

查看完整榜单