AI公司 Anthropic 宣布为其聊天机器人 Claude 推出全新的“语音模式”,标志着其正式加入与 OpenAI、谷歌等科技巨头在语音交互领域的竞争。
目前该功能正处于测试阶段,已开始向部分移动应用用户推送。据官方文档和 X账号披露的信息,语音模式将首先支持英语,并在未来几周内逐步扩大可用范围。

一位 X 用户周二晚间表示,他已在应用中看到并启用了这一功能。初步资料显示,语音模式默认由 Claude Sonnet 4 模型 驱动,这是 Anthropic 当前最主流的中型模型之一。
什么是语音模式?它能做什么?
根据 Anthropic 的官方说明,语音模式的核心目标是让用户在“双手忙碌、头脑空闲”的场景下,也能方便地使用 Claude:
“语音模式使你能够与 Claude 进行语音对话并听到语音响应,让你在不方便打字时更轻松地使用 AI。”
具体功能包括:
- 语音输入 + 语音输出:完全通过语音进行交流,无需键盘;
- 实时视觉反馈:在屏幕上显示关键对话要点,帮助理解内容;
- 多语种支持计划中:目前仅支持英语,未来将扩展;
- 多种语音可选:用户可在五种不同风格的语音中选择;
- 无缝切换文本/语音:对话过程中随时切换输入方式;
- 自动转录与摘要:每次语音对话结束后生成文字记录和总结。
此外,语音模式也支持处理图像和文档内容,延续了 Claude 在多模态任务上的优势。
使用限制与订阅要求
尽管语音模式听起来很强大,但 Anthropic 对其使用仍设有一定的限制:
- 免费用户配额有限:大多数免费用户每月可进行约20-30次语音对话;
- Google Workspace 集成限于付费订阅用户:包括日历预约和 Gmail 访问;
- Google 文档深度集成仅对企业版开放。
这意味着,想要充分利用语音模式的企业用户,可能需要升级到更高阶的付费计划。
为什么现在推出语音模式?
语音交互正成为各大AI平台竞相布局的关键入口。除了 Anthropic,以下公司也已推出或测试相关功能:
- OpenAI:GPT-4o 支持实时语音对话,体验接近真人;
- Google:Gemini Live 提供自然语音互动;
- xAI(马斯克团队):Grok 已上线语音模式;
- Apple:Siri 正在经历新一轮AI重构。
Anthropic 并非最早入场者,但凭借其强大的模型基础和良好的隐私设计,仍有潜力在语音助手领域占据一席之地。
早在今年3月,Anthropic 首席产品官 Mike Krieger 就在接受《金融时报》采访时透露,公司正在开发语音功能,并与亚马逊、ElevenLabs 等专注于语音技术的公司展开合作洽谈。
不过截至目前,尚无明确证据表明这些合作已有成果落地。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















