Perplexity Comet 再升级:语音助手可直接操控网页,迈向全任务自动化

早报3个月前发布 小马良
142 0

Perplexity 旗下的 Comet 浏览器近期悄然上线了一项关键更新:其内置语音助手现已支持直接操控网页内容——不再局限于控制浏览器本身(如开关标签、导航),而是能通过语音命令完成网页内的点击、表单填写、按钮触发等操作。这一变化让 Comet 向“全任务自动化浏览”又迈进了一步。

Perplexity Comet 再升级:语音助手可直接操控网页,迈向全任务自动化

核心升级:语音助手从“控浏览器”到“控网页”

此前,Comet 的语音助手仅能处理基础的浏览器级操作,如“打开新标签”“跳转到某网站”;而此次更新后,语音控制能力延伸至网页内部元素,具体表现为:

  • 触发页面交互:通过语音指令让助手点击网页按钮(如“点击‘提交’按钮”)、选择下拉菜单(如“选择日期为10月1日”)、填写表单字段(如“在搜索框输入‘AI浏览器’”);
  • 实时可视化执行:与“后台静默完成”的自动化工具不同,Comet 会在界面上实时展示每一步操作过程(如光标移动、元素选中状态),用户若发现偏差可随时中断或修正;
  • 适配免提场景:无需依赖键盘鼠标,适合在锻炼时用电视浏览网页、烹饪时查食谱、通勤时用平板处理简单网页任务等场景。

不过目前该功能仍有优化空间——部分复杂网页的元素识别速度较慢,且对动态加载的内容支持度有待提升。

设计逻辑:AI 与浏览体验的“深度融合”

从产品设计来看,Comet 的语音助手始终嵌入在浏览器侧边栏中,未采用独立聊天窗口的形式。这种“边浏览边控制”的设计,延续了 Perplexity 一贯的策略:将 AI 能力直接融入浏览流程,而非作为“外挂工具”存在。

此次将语音控制扩展到网页级操作,进一步强化了这一逻辑——用户无需在“语音助手”与“网页”之间切换注意力,即可通过自然语言完成从“搜索内容”到“操作内容”的闭环,例如:“搜索‘2024科技展会时间表’,并点击第一条结果中的‘下载日程’按钮”。

现状与前景:未官宣的“实验性功能”

目前该语音控网页功能尚未正式对外宣布,仅在部分 Comet 浏览器的最新构建版本中上线,推测仍处于实验阶段。结合 Perplexity 对 Comet 的定位(既是“AI 搜索伴侣”,也是“智能浏览测试场”),团队可能会根据用户反馈优化功能稳定性(如提升元素识别准确率、加快操作响应速度)后再推出正式版。

若该功能打磨成熟,Comet 有望成为首批实现“端到端语音控制网页交互”的主流浏览器之一——相比传统浏览器的“语音搜索”,其能覆盖“搜索-浏览-操作”全链路;相比专用自动化工具,其又更贴近普通用户的日常浏览习惯,或能在 AI 浏览器赛道形成独特竞争力。

© 版权声明

相关文章

暂无评论

none
暂无评论...