
MimikaStudio 是一款面向 macOS(Apple Silicon) 的本地优先应用,集 语音克隆、文本转语音(TTS)、PDF 朗读、有声书创作 于一体。所有处理均在设备端完成,无需联网,不上传音频,保障用户隐私。

通过 MLX + Metal 原生加速,它能在 M1/M2/M3/M4 芯片上高效运行多款前沿 TTS 模型,包括 Qwen3-TTS、Chatterbox 和 Kokoro,支持从 3 秒音频中克隆任意人声,并生成高质量多语言语音。
⚠️ 当前仅提供 macOS 预构建版本,Windows/Linux 支持计划中。
核心能力
3 秒语音克隆
上传一段 ≥3 秒 的音频(如语音备忘录、播客片段),即可用该声音合成新内容。支持:
- Qwen3-TTS:10 种语言,0.6B / 1.7B 模型可选
- Chatterbox:23 种语言,含希伯来语等小语种
9 种优质预设发音人
无需参考音频,直接使用专业录制的发音人:
- 英语:Ryan(活力男)、Aiden(阳光男)
- 中文:Vivian(明亮女)、Uncle Fu(醇厚男)
- 日语:Ono Anna(俏皮女)
- 韩语:Sohee(温暖女)
超快英式 TTS(Kokoro)
82M 小模型,延迟 <200ms,提供 21 种英式/美式音色(Emma、George、Lily 等),适合实时朗读。
PDF 与文档朗读
- 支持 PDF、EPUB、TXT、DOCX 等格式
- 逐句高亮,同步语音播放
- 可导出为 WAV/MP3/M4B 有声书,带章节标记与字幕(SRT/VTT)
统一语音库 & 高级控制
- 所有引擎共享同一语音样本库
- 支持风格指令:“轻声细语”、“兴奋地讲述”
- 可调参数:温度、top_p、重复惩罚、随机种子

支持模型概览
| 模型 | 类型 | 参数量 | 语言 | 特点 |
|---|---|---|---|---|
| Kokoro-82M | 快速 TTS | 82M | 英语 | 低延迟,21 种音色 |
| Qwen3-TTS Base | 语音克隆 | 0.6B / 1.7B | 10 种 | 3 秒克隆,高保真 |
| Qwen3-TTS CustomVoice | 预设发音人 | 0.6B / 1.7B | 4 种 | 9 种专业音色 |
| Chatterbox Multilingual | 语音克隆 | — | 23 种 | 多语言,含希伯来语 |
模型首次使用时自动下载(总计约 3–5 GB),也可通过 CLI 预加载。
安装与启动(macOS)
系统要求
- macOS 13+(Ventura 或更高)
- Apple Silicon(M1/M2/M3/M4)
- 8GB+ 内存(推荐 16GB)
- 10GB 可用存储
自动安装(推荐)
git clone https://github.com/BoltzmannEntropy/MimikaStudio.git
cd MimikaStudio
./install.sh # 自动安装依赖、模型、Flutter
启动应用
source venv/bin/activate
./bin/mimikactl up # 启动桌面版
./bin/mimikactl up --web # 启动 Web UI(http://127.0.0.1:5173)

命令行工具(mimika)
MimikaStudio 提供完整的 CLI,适合脚本集成:
# 使用 Kokoro 朗读文本
./bin/mimika kokoro "Hello!" --voice bf_emma --output hello.wav
# 用 Ryan 发音人生成有声书
./bin/mimika qwen3 book.pdf --speaker Ryan --output book.mp3
# 克隆声音(需参考音频)
./bin/mimika qwen3 "New text" --clone --reference voice.wav
支持批量处理文档、自定义语速、输出格式(WAV/MP3/M4B)等。
开发者友好:API 与 MCP 集成
REST API
后端基于 FastAPI,提供 60+ 个端点,涵盖:
- TTS 生成、语音管理、有声书任务
- 实时系统监控(CPU/GPU/内存)
- 模型状态查询与下载
访问 http://localhost:8000/docs 查看交互式文档。
MCP 协议支持
内置 MCP 服务器(端口 8010),将所有功能暴露为标准工具,可被 Claude Code、Codex、OpenClaw 等智能体直接调用。
应用内 “MCP 与 API” 仪表盘 实时展示:
- 所有工具与 API 端点
- 服务健康状态
- 参数说明与搜索
为什么选择 MimikaStudio?
- ✅ 完全本地运行:无网络依赖,数据不出设备
- ✅ Apple Silicon 原生优化:Metal 加速,性能高效
- ✅ 多引擎融合:克隆 + 预设 + 快速 TTS 三位一体
- ✅ 创作者友好:从 PDF 到有声书,一键生成专业内容
- ✅ 开放可扩展:CLI + API + MCP,无缝集成工作流
数据统计
相关导航


Krisp

Alexandria Audiobook Generator

Wispr Flow

Hedra

Supertonic

Huxe






