
Zonos
Zonos模型基于约 20 万小时的语音数据进行训练,涵盖中性和富有表现力的语音模式。虽然主要数据集为英语内容,但也包含大量中文、日语、法语、西班牙语和德语的语音数据,从而支持多语言合成。
Handy CLI 是一款面向开发者和高效能用户的本地化语音控制工具,它将语音识别、AI 辅助与键盘自动化结合,让你通过自然语言直接操控电脑操作。
你是否想过,只需说话,就能生成代码、执行快捷键、获取 AI 建议?
Handy CLI 是一款面向开发者和高效能用户的本地化语音控制工具,它将语音识别、AI 辅助与键盘自动化结合,让你通过自然语言直接操控电脑操作。
无需鼠标,无需切换应用,按下一个组合键,说出指令,任务自动完成——这一切都在本地运行,数据不离设备。
Handy CLI 不只是一个语音转文字工具,而是一个完整的语音驱动生产力系统。它的五大核心能力包括:
所有功能均可通过预设的键盘快捷键一键激活,无缝融入日常编码或写作流程。
Handy CLI 采用多组合键机制,确保不同模式互不干扰。每个按键组合对应一种操作类型:
| 快捷键 | 功能说明 |
|---|---|
Ctrl + Shift (左) | 执行语音命令(如“copy”、“paste”)→ 触发系统级键盘动作 |
Ctrl + Cmd (右) | 将你说的话直接转为文本 → 插入当前光标位置 |
Shift + Alt (左) | 启动 AI 辅助模式 → 提问并获得基于上下文的回答 |
Ctrl + Alt + Cmd (左) | 代码生成模式 → 口述功能需求,输出可运行代码 |
✅ 使用提示:所有操作均为“按住—说话—松开”模式,类似语音版快捷键,学习成本极低。
Ctrl + Alt + Cmd (左)def fibonacci(n):
sequence = []
a, b = 0, 1
for _ in range(n):
sequence.append(a)
a, b = b, a + b
return sequence
Shift + Alt (左)Ctrl + Cmd (右)Ctrl + Shift (左)Cmd + S 保存当前文件支持常见命令映射:
Cmd + CCmd + VCmd + ZCmd + AHandy CLI 采用模块化设计,各组件职责明确,便于维护与扩展。
| 模块 | 技术栈 | 职责 |
|---|---|---|
| AudioRecorder | sounddevice + numpy | 实时采集音频流,支持静音检测与降噪 |
| MLX Whisper | mlx_whisper | 在 Apple Silicon 上运行 Whisper 模型,完成本地语音转文字 |
| KeyboardShortcut | pynput | 监听全局热键,模拟键盘/鼠标事件 |
| ContextManager | pyperclip | 读取剪贴板内容,提供上下文信息给 AI |
| AI Integration | OpenRouter API(Claude) | 发送请求,接收 AI 回复,支持多模型切换 |
| Config & Env | python-dotenv + pydantic | 管理环境变量与配置校验 |
🔍 注:目前 MLX Whisper 仅支持 Apple Silicon Mac,未来计划支持更多平台。
git clone [repository-url]
cd handy-cli
推荐使用 uv(Rust 编写的 Python 包管理器,速度快):
uv pip install -r requirements.txt
所需依赖包:
openai # 实际调用 OpenRouter 兼容接口
pynput # 键盘/鼠标事件模拟
sounddevice # 音频输入设备访问
mlx_whisper # 苹果芯片上的 Whisper 推理
pyperclip # 剪贴板读写
numpy # 音频数据处理
python-dotenv # 环境变量加载
pydantic # 配置对象验证
创建 .env 文件,填入 OpenRouter API Key:
OPENROUTER_API_KEY=your_openrouter_api_key
💡 获取方式:前往 OpenRouter 官网 注册账号,生成 API 密钥
启动主程序:
uv run handy.py
后台服务启动后,即可随时使用上述快捷键触发对应功能。
⚠️ 注意事项:
相比传统语音助手或商业工具,Handy CLI 的优势在于:
它不是替代 IDE 或终端,而是成为你手指的延伸——让想法更快落地。







