CosyVoice Desktop:在你自己的电脑上,制作多角色有声小说
CosyVoice Desktop:在你自己的电脑上,制作多角色有声小说

CosyVoice Desktop:在你自己的电脑上,制作多角色有声小说最新版

官方版无广告10

CosyVoice Desktop 是一个完全本地运行的桌面端有声内容生成工具,基于 CosyVoice3-0.5B 大模型构建,无需联网、无需订阅,打开即用,支持多角色配音、语音修补、跨语言合成,并提供完整的项目管理与音频导出流程。

更新日期:
2025年12月24日
语言:
中文
平台:

2.15G0 人已下载 手机查看

如果你是小说作者、播客主理人、广播剧创作者,或正在尝试将文字转化为有声内容,那么「配音成本高」「角色音色单一」「合成流程复杂」可能是你绕不开的障碍。

CosyVoice Desktop

CosyVoice Desktop 是一个完全本地运行的桌面端有声内容生成工具,基于 CosyVoice3-0.5B 大模型构建,无需联网、无需订阅,打开即用,支持多角色配音、语音修补、跨语言合成,并提供完整的项目管理与音频导出流程。

为什么选择本地部署?

与云端 TTS 服务不同,CosyVoice Desktop 的所有推理均在你的电脑上完成

  • 无需上传文本,保障内容隐私
  • 无 API 调用限制,可批量生成
  • 支持自定义参考音频,实现角色音色复刻
  • 断网也能用,适合敏感或离线创作场景

硬件要求:建议显存 ≥4GB(支持 CUDA 12.8,已适配 RTX 50 系显卡),亦可在 CPU 模式下运行(速度较慢)。

四种语音生成模式,覆盖多元创作需求

  1. 零样本复刻(Zero-shot Cloning)
    仅需一段参考音频(3–10 秒),即可复刻其音色朗读任意文本。适合快速创建角色旁白。
  2. 精细控制(Fine-grained Control)
    通过参考文本 + 参考音频 + 音素对齐,实现更精准的语调、停顿与情感控制,适合关键对白。
  3. 指令控制(Instruction-based)
    用自然语言指令调整语音风格,例如:“用温和的语气朗读”“加快语速,表现紧张感”。
  4. 语音修补(Voice Inpainting)
    对已有合成音频的某一段进行重生成(如修正发音错误、替换语气),无需重跑全文。

所有模式均支持中文、英文、日文、韩文及部分方言,跨语言合成能力持续优化中。

CosyVoice Desktop

一站式工作台:从文本到成品音频

智能文本编辑器

  • 支持标准编辑操作(复制/粘贴/撤销)
  • 按段落绑定语音配置,不同角色以颜色标记区分(如红色=主角,蓝色=旁白)
  • 生成后自动顺序播放各段音频,实时反馈效果

多角色语音管理

  • 创建无限数量的角色配置,包含:模式、参考音频、参考文本、标记颜色
  • 配置以 JSON 格式保存,可导入/导出,便于团队协作或跨项目复用
  • 启动时自动加载上次配置,无需重复设置

自动化输出与合成

  • 音频自动保存至 output/{项目名}/ 目录,结构清晰
  • 内置 FFmpeg(V1.2+),支持一键合并分段音频为完整文件
  • 提供重 Roll 按钮:对不满意段落单独重新生成,不重跑全文
CosyVoice Desktop

开箱即用,但保留灵活性

  • 便携设计:解压即用,自带 Python 环境,不污染系统
  • 模型按需下载:从 v1.3 起,程序本体不再捆绑模型。运行 download_all_models.bat 可选择从 HuggingFace 或 ModelScope 下载(后者对国内用户更友好)
  • 主题切换:支持浅色/深色/自动模式,适配不同工作环境
  • 日志面板:实时显示生成进度、耗时、显存占用与警告信息,便于调试

常见问题与解决方案

  • “No module named 'PIL'”
    因便携环境中缺少 Pillow 库。解决方法:在程序根目录打开终端,执行
    python_env\Scripts\pip.exe install Pillow --upgrade
  • 合成音频失败
    V1.2 已内置 FFmpeg,通常无需额外配置。若仍失败,请确认系统环境变量中无冲突的旧版 FFmpeg。
  • 语音失真或无声
    请确保参考音频语言待合成文本语言一致。例如:不能用日语参考音频生成中文语音(零样本模式下尤其敏感)。
  • 模型加载失败
    检查 pretrained_models/ 目录是否完整,显存是否充足(建议 ≥4GB)。

📦 版本演进:从可用到好用

  • V1.0(2025.10.7):基础功能上线
  • V1.1(2025.10.30):修复 Pillow 依赖问题
  • V1.2(2025.12.14):升级 Torch 2.7 + CUDA 12.8,支持 RTX 50 系;新增设置页、配置记忆、自动输出目录
  • V1.3(2025.12.16):升级至 CosyVoice3-0.5B,语音自然度与情感表达显著提升;提供语音修补模式;模型分离,未来将全面迁移至 GitHub 发布

项目计划逐步弃用百度网盘,所有版本将通过 GitHub 提供,提升下载稳定性和社区协作效率。

适合谁用?

  • 网络小说作者:快速生成试听样章
  • 独立播客制作人:低成本实现多角色对话
  • 教育内容创作者:为课程脚本配音
  • AI 语音爱好者:本地实验 TTS 模型效果

相关软件

Readify

Readify - 最新版

Readify 是一款集电子书阅读与高质量 AI 语音朗读于一体的工具,旨在将任意文本内容转化为自然流畅的有声体验。它不依赖传统机械式 TTS(文本转语音),而是基于大语言模型技术,模拟人类朗读的节奏、语调与停顿,显著提升听书体验。
Handy

Handy - 最新版

Handy 是一款基于 Tauri(Rust + React/TypeScript)构建的跨平台桌面应用,提供简单、注重隐私的语音转录功能。按下快捷键,说话,你的文字就会出现在任何文本框中——全程无需将语音数据发送到云端。

暂无评论

none
暂无评论...