MimikaStudio

6天前发布 1 00

MimikaStudio 是一款面向 macOS(Apple Silicon 芯片)的本地优先应用,核心优势在于全程本地运行,无需依赖云端,仅需 3 秒音频就能克隆任意声音,同时集成文本转语音、PDF 逐句朗读、有声书创作等实用功能,且针对苹果芯片做了深度优化,通过 MLX 实现原生 Metal 加速,兼顾性能与隐私。

所在地:
美国
收录时间:
2026-02-14
其他站点:
MimikaStudioMimikaStudio

MimikaStudio 是一款面向 macOS(Apple Silicon) 的本地优先应用,集 语音克隆、文本转语音(TTS)、PDF 朗读、有声书创作 于一体。所有处理均在设备端完成,无需联网,不上传音频,保障用户隐私。

MimikaStudio

通过 MLX + Metal 原生加速,它能在 M1/M2/M3/M4 芯片上高效运行多款前沿 TTS 模型,包括 Qwen3-TTS、Chatterbox 和 Kokoro,支持从 3 秒音频中克隆任意人声,并生成高质量多语言语音。

⚠️ 当前仅提供 macOS 预构建版本,Windows/Linux 支持计划中。

核心能力

3 秒语音克隆

上传一段 ≥3 秒 的音频(如语音备忘录、播客片段),即可用该声音合成新内容。支持:

  • Qwen3-TTS:10 种语言,0.6B / 1.7B 模型可选
  • Chatterbox:23 种语言,含希伯来语等小语种

9 种优质预设发音人

无需参考音频,直接使用专业录制的发音人:

  • 英语:Ryan(活力男)、Aiden(阳光男)
  • 中文:Vivian(明亮女)、Uncle Fu(醇厚男)
  • 日语:Ono Anna(俏皮女)
  • 韩语:Sohee(温暖女)

超快英式 TTS(Kokoro)

82M 小模型,延迟 <200ms,提供 21 种英式/美式音色(Emma、George、Lily 等),适合实时朗读。

PDF 与文档朗读

  • 支持 PDF、EPUB、TXT、DOCX 等格式
  • 逐句高亮,同步语音播放
  • 可导出为 WAV/MP3/M4B 有声书,带章节标记与字幕(SRT/VTT)

统一语音库 & 高级控制

  • 所有引擎共享同一语音样本库
  • 支持风格指令:“轻声细语”、“兴奋地讲述”
  • 可调参数:温度、top_p、重复惩罚、随机种子
MimikaStudio

支持模型概览

模型类型参数量语言特点
Kokoro-82M快速 TTS82M英语低延迟,21 种音色
Qwen3-TTS Base语音克隆0.6B / 1.7B10 种3 秒克隆,高保真
Qwen3-TTS CustomVoice预设发音人0.6B / 1.7B4 种9 种专业音色
Chatterbox Multilingual语音克隆23 种多语言,含希伯来语

模型首次使用时自动下载(总计约 3–5 GB),也可通过 CLI 预加载。

安装与启动(macOS)

系统要求

  • macOS 13+(Ventura 或更高)
  • Apple Silicon(M1/M2/M3/M4)
  • 8GB+ 内存(推荐 16GB)
  • 10GB 可用存储

自动安装(推荐)

git clone https://github.com/BoltzmannEntropy/MimikaStudio.git
cd MimikaStudio
./install.sh  # 自动安装依赖、模型、Flutter

启动应用

source venv/bin/activate
./bin/mimikactl up          # 启动桌面版
./bin/mimikactl up --web    # 启动 Web UI(http://127.0.0.1:5173)
MimikaStudio

命令行工具(mimika

MimikaStudio 提供完整的 CLI,适合脚本集成:

# 使用 Kokoro 朗读文本
./bin/mimika kokoro "Hello!" --voice bf_emma --output hello.wav

# 用 Ryan 发音人生成有声书
./bin/mimika qwen3 book.pdf --speaker Ryan --output book.mp3

# 克隆声音(需参考音频)
./bin/mimika qwen3 "New text" --clone --reference voice.wav

支持批量处理文档、自定义语速、输出格式(WAV/MP3/M4B)等。

开发者友好:API 与 MCP 集成

REST API

后端基于 FastAPI,提供 60+ 个端点,涵盖:

  • TTS 生成、语音管理、有声书任务
  • 实时系统监控(CPU/GPU/内存)
  • 模型状态查询与下载

访问 http://localhost:8000/docs 查看交互式文档。

MCP 协议支持

内置 MCP 服务器(端口 8010),将所有功能暴露为标准工具,可被 Claude Code、Codex、OpenClaw 等智能体直接调用。

应用内 “MCP 与 API” 仪表盘 实时展示:

  • 所有工具与 API 端点
  • 服务健康状态
  • 参数说明与搜索

为什么选择 MimikaStudio?

  • ✅ 完全本地运行:无网络依赖,数据不出设备
  • ✅ Apple Silicon 原生优化:Metal 加速,性能高效
  • ✅ 多引擎融合:克隆 + 预设 + 快速 TTS 三位一体
  • ✅ 创作者友好:从 PDF 到有声书,一键生成专业内容
  • ✅ 开放可扩展:CLI + API + MCP,无缝集成工作流

数据统计

相关导航

暂无评论

none
暂无评论...