OpenAI 推出 ChatGPT 实时视频功能:具备视觉能力的高级语音模式

OpenAI 终于在周五正式推出了 ChatGPT 的实时视频功能,这是该公司自今年5月以来首次展示的功能。此次发布的 具备视觉能力的高级语音模式 使得 ChatGPT 不仅能够通过语音与用户互动,还能通过摄像头或屏幕共享理解用户的环境和设备上的内容。

功能亮点

  1. 实时物体识别与响应:订阅了 ChatGPT Plus、Team 或 Pro 的用户可以将手机对准物体,ChatGPT 几乎可以实时做出回应。例如,用户可以让 ChatGPT 识别并解释物体、提供相关信息或建议。
  2. 屏幕共享与内容理解:具备视觉能力的高级语音模式还可以通过 屏幕共享 理解设备屏幕上的内容。这使得 ChatGPT 可以帮助用户解释各种设置菜单、回答数学问题、提供编程建议等。要进行屏幕共享,用户只需点击三点菜单并选择“共享屏幕”。
  3. 操作步骤:要访问具备视觉能力的高级语音模式,用户需要点击 ChatGPT 聊天栏旁边的 语音图标,然后点击左下角的 视频图标,这将启动视频流。
  4. 逐步推出:该功能的推出将从周五开始,并在下周结束。然而,并非所有用户都能立即获得此功能。ChatGPT 企业版和教育版订阅用户 要到明年1月才能获得该功能。此外,对于位于 欧盟、瑞士、冰岛、挪威或列支敦士登 的用户,目前还没有具体的时间表。

演示

推迟原因

具备视觉能力的高级语音模式曾多次被推迟。据报道,部分原因是 OpenAI 在功能尚未准备好投入生产时就宣布了它。今年4月,OpenAI 承诺高级语音模式将在“几周内”向用户推出,但随后表示需要更多时间进行完善。当高级语音模式终于在今年初秋为部分用户推出时,它还缺乏视觉分析组件。在此次发布之前,OpenAI 一直专注于将仅语音的高级语音模式扩展到更多平台和欧盟用户。

竞争对手动态

OpenAI 的竞争对手也在积极开发类似功能。例如,谷歌本周将其 Project Astra 实时视频分析对话AI功能提供给安卓平台上的一组“受信任的测试者”。Meta 等其他公司也在为其聊天机器人产品开发类似的视觉和语音结合功能。

圣诞特别模式

除了具备视觉能力的高级语音模式外,OpenAI 还在周四推出了节日特别模式——圣诞老人模式。在 ChatGPT 中添加了圣诞老人的声音作为预设声音,用户可以通过点击或点击 ChatGPT 应用中提示栏旁边的 雪花图标 来启用这一模式,为用户提供更加有趣的交互体验。

0

评论0

没有账号?注册  忘记密码?