你是否曾希望有一个语音输入工具,能快速将你说的话变成文字,又不必担心隐私泄露?
Handy 正是为此而生——一个免费、开源、完全离线运行的语音转文字桌面应用。它不依赖云端服务,所有处理都在本地完成,从说话到输出文本,整个过程安全、可控、高效。
是什么让 Handy 不一样?
市面上已有不少语音识别工具,但大多需要联网上传音频,或存在功能封闭、价格高昂的问题。Handy 的目标很明确:填补一个真正可扩展、注重隐私、对所有人开放的语音转录工具的空白。

它的核心理念可以概括为四个关键词:
- 免费使用:无障碍技术不应设门槛,Handy 永远免费。
- 开源透明:代码公开,社区共建,任何人都可审查、修改和贡献。
- 隐私优先:语音数据全程保留在本地设备,不会上传至任何服务器。
- 专注单一功能:不做复杂的 AI 助手,只专注于一件事——把你说的话准确地写出来。
更重要的是,Handy 并不追求成为“最强大”的语音识别软件,而是致力于成为“最容易被改造和扩展”的基础平台。开发者可以轻松分叉项目,加入新模型、新功能,甚至集成到其他系统中。
它是怎么工作的?
Handy 的操作逻辑极为简单,几乎零学习成本:
- 设置一个快捷键(例如
Ctrl + Space) - 按下快捷键开始录音,说出你想输入的内容
- 松开按键,语音立即在后台被转录
- 文本自动粘贴到当前光标位置(无论你在用哪个应用)
整个流程无需切换窗口,也不需要点击按钮。就像多了一个“语音键盘”。
背后的技术流程:
- 使用 Silero VAD 实时检测是否有声音,跳过静音片段,提升效率
- 支持多种本地语音识别模型:
- Whisper 系列模型(small / medium / turbo / large),支持 GPU 加速推理
- Parakeet V3:专为 CPU 优化的高性能模型,支持自动语言检测
- 音频重采样由 rubato 处理,确保兼容性
- 所有结果直接模拟键盘输入,通过系统无障碍接口写入目标应用
这一切都发生在你的电脑上,不需要网络连接。
支持哪些系统?
Handy 是基于 Tauri(Rust + React/TypeScript)构建的跨平台应用,目前支持:
- macOS(Apple Silicon M系列芯片原生支持)
- Windows(x64 架构,支持 Intel/AMD/NVIDIA GPU)
- Linux(x64,推荐 Ubuntu 22.04 或 24.04)
未来计划扩展更多架构支持,包括 ARM 设备等。
如何快速开始使用?
安装步骤:
- 前往 Handy 发布页 或官网下载对应系统的安装包
- 安装后首次启动,授予麦克风权限和辅助功能访问权限(用于模拟输入)
- 进入设置界面,自定义快捷键和默认识别模型
- 在任意文本框中按下快捷键,开始说话即可
无需注册账号,也无需配置复杂参数,开箱即用。
⚠️ 注意:部分系统(如 macOS)需手动允许“辅助功能”权限,否则无法实现自动粘贴文本。
技术架构一览
Handy 的底层采用前后端分离设计,兼顾性能与可维护性:
| 组件 | 技术栈 | 功能 |
|---|---|---|
| 前端界面 | React + TypeScript + Tailwind CSS | 用户设置、状态展示 |
| 后端逻辑 | Rust | 音频采集、模型调度、系统交互 |
| 核心库 | whisper-rs / transcription-rs | 分别支持 Whisper 和 Parakeet 模型 |
| 音频处理 | cpal + vad-rs + rubato | 录音、静音检测、重采样 |
| 快捷键监听 | rdev | 全局热键捕获 |
这种组合既保证了跨平台能力,又充分发挥了 Rust 在系统级编程中的性能优势。
当前限制与硬件建议
尽管 Handy 已具备实用价值,但仍处于积极开发阶段,以下是一些已知限制和运行建议:
推荐配置
使用 Whisper 模型时:
- macOS:M1 及以上芯片(推荐 M2/M3)
- Windows/Linux:配备 英特尔/AMD CPU 或英伟达 GPU 的 x64 设备
- 更高算力意味着更快的实时转录速度(如大型模型可在 M1 上接近实时)
使用 Parakeet V3 模型时:
- 纯 CPU 运行,适合无独立显卡的设备
- 最低要求:英特尔 Skylake(第六代)或同级别 AMD 处理器
- 实测表现:在 i5 级别处理器上可达约 5 倍实时速度(即 1 秒语音约 0.2 秒内完成转录)
- 支持自动语言检测,无需手动选择语种
💡 提示:如果你的设备没有 GPU,建议优先尝试 Parakeet V3 模型,其对 CPU 友好且精度良好。















