以文本转语音(TTS)功能闻名的工具 Speechify,正从单一“听书工具”全面转型为“以语音为第一公民”的AI生产力平台。其最新Chrome扩展新增两大核心功能:语音输入(听写)与常驻侧边栏的对话式语音助手,结合原本强大的多语言朗读能力,实现“听、说、问、答”全流程语音交互,覆盖学习、办公、日常阅读等多元场景,目前已拥有超5000万全球用户。

Speechify 的核心革新在于打破“文字优先”的交互逻辑,让语音成为默认且核心的操作方式,区别于ChatGPT、Gemini等工具将语音作为次要功能的设计,更贴合偏好语音交互的用户需求,尤其为阅读障碍者、职场人士、效率追求者等群体提供了高效解决方案。
核心功能升级:从“听”到“全语音交互”
- 新增语音输入(听写):说话即打字
支持英语语音实时转文字,可在Gmail、Google Docs等主流平台直接听写邮件、文章或提示词,自动纠错并删除“嗯、啊”等口语填充词,输入速度较手动打字提升3-5倍。目前在WordPress等部分站点的唤醒与识别效果仍需优化,公司表示将逐步针对主流网站迭代适配。值得一提的是,模型会随使用次数增加持续学习,词错率将逐步下降。 - 常驻侧边栏语音助手:网页内容即时答疑
浏览器侧边栏内置对话式AI助手,可直接针对当前网页、文档内容提问,例如“提炼核心三要点”“用简单语言解释这段内容”“就此文章生成练习题”等。助手能精准获取屏幕内容上下文,相比通用语音助手,场景关联性更强、响应更精准,如同“随身AI导师”。 - 经典TTS功能升级:多速、多音、多场景适配
保留并强化核心朗读功能:支持高达4.5倍速(900词/分钟)朗读谷歌文档、PDF、网页、书籍,即使高速播放语音仍自然流畅;覆盖60多种语言、200多种拟人语音,包括Snoop Dogg、MrBeast等名人官方合作嗓音;新增图片转音频功能,拍摄或截取文本图片即可即时朗读,同时支持实时高亮跟踪阅读进度、全网站内嵌播放器等便捷设计。 - 多端同步与悬浮控件:无缝衔接无干扰
桌面(Chrome)与移动设备(iOS/Android)间即时同步内容库,可跨设备无缝接续阅读;提供可移动、停靠或隐藏的悬浮控件,兼顾便捷操作与无干扰体验,适配多任务处理场景。

核心优势:以语音为核心,重构生产力交互
- 语音优先,打破文字依赖
区别于其他AI工具“文字为主、语音为辅”的设计,Speechify 从底层逻辑上以语音为核心,默认启动语音交互模式,无需手动切换输入方式,更贴合“不想打字、不便打字”或“偏好听觉学习”的用户需求。 - 场景深度绑定,上下文感知更强
语音助手直接关联当前屏幕内容,无需手动复制粘贴文本,提问与解答更具针对性。例如阅读学术论文时,可即时询问“这个公式的应用场景”;浏览产品页面时,能快速获取“核心功能对比”,大幅提升信息处理效率。 - 全流程覆盖,一站式语音解决方案
整合“朗读(输入→输出)、听写(输出→输入)、对话(交互→反馈)”三大核心能力,形成从获取信息、生成内容到互动答疑的全流程语音工具链,无需切换多个应用即可完成多元任务。
适用人群:精准覆盖多元需求场景
- 学生群体:多倍速朗读教材、文献,语音听写论文初稿,请求总结长文核心观点或生成练习题,通过“听、说、问”多元方式提升学习效率与记忆留存。
- 阅读障碍者/ADHD/视障人士:由患有阅读障碍与ADHD的创始人开发,核心功能贴合特殊需求——朗读消除阅读障碍,语音输入避免书写困难,对话助手解答理解疑问,已助力数百万人更轻松地学习交流。
- 职场人士:语音听写邮件、报告,快速朗读审阅PDF、合同,总结会议纪要核心要点,免手提操作适配通勤、多任务处理等场景,应对阅读密集型工作更高效。
- 家长用户:朗读儿童故事、辅助孩子语音写作,解答故事中的好奇问题,将亲子阅读、作业辅导转化为互动体验。
- 效率追求者与阅读爱好者:多倍速聆听书籍、博客,语音口述回复消息,随时请求总结、转述或扩展内容,让阅读从“单向接收”变为“双向对话”,自动化读写流程。
当前局限与未来规划
- 现存不足:语音输入目前仅支持英语,部分网站(如WordPress)识别效果有待优化;侧边栏助手无法与Atlas、Comet等自带侧边栏助手的浏览器共存,但公司表示核心目标用户为庞大的Chrome原生用户群,影响有限。
- 未来方向:计划将语音输入+语音助手功能扩展至桌面端与移动端全应用;长远将开发能完成具体任务的AI Agent,例如帮用户打电话预约、排队等待客服(类似Truecaller、Cloacked等公司的探索方向),进一步强化生产力工具属性。