OpenAI推出GPT-5 Pro、Sora 2和新语音模型，全面升级API能力

早报6个月前发布小马良

172 0

在周一举行的 OpenAI Dev Day 上，公司宣布了一系列重磅 API 更新，旨在进一步吸引开发者加入其生态系统。此次发布的重点包括更强大的语言模型 GPT-5 Pro、新一代视频生成模型 Sora 2，以及一个轻量级、低成本的实时语音模型 gpt-realtime mini。

OpenAI推出GPT-5 Pro、Sora 2和新语音模型，全面升级API能力

这些更新不仅是技术演进，更是 OpenAI 在竞争激烈的 AI 平台市场中巩固开发者生态的关键举措——让企业与个人开发者能基于其最先进模型构建高价值应用。

GPT-5 Pro：面向专业领域的高性能推理模型

新推出的 GPT-5 Pro 针对需要高准确性和深度推理能力的应用场景进行了优化，特别适合金融、法律、医疗等对输出质量要求极高的行业。

虽然 OpenAI 未披露该模型的具体参数规模或训练细节，但 CEO 萨姆·奥特曼强调，它在复杂任务处理、上下文理解与逻辑一致性方面表现显著优于前代模型。对于依赖 AI 进行决策支持或专业内容生成的企业而言，GPT-5 Pro 提供了更强的可靠性和可控性。

gpt-realtime mini：轻量语音模型，成本降低70%

随着语音交互成为用户接触 AI 的主要方式之一，OpenAI 推出 gpt-realtime mini ——一款专为低延迟音频流设计的小型语音模型。

该模型支持实时双向语音对话，具备与此前高级语音模型相当的声音自然度和表现力，但价格降低70%，大幅降低了开发者集成语音功能的成本门槛。

这意味着更多应用可以负担得起高质量的语音助手体验，例如客服机器人、教育工具或车载交互系统。

Sora 2上线API：开发者可接入顶尖视频生成能力

继上周发布 Sora 应用（类 TikTok 视频平台）后，OpenAI 宣布 Sora 2 现已向开发者开放预览接入。这意味着第三方应用将能调用驱动 Sora 背后惊人视频生成能力的同一模型。

相比初代，Sora 2 在多个维度实现提升：

更真实的物理模拟与动作连贯性；
支持同步生成环境音效、背景音乐和语音；
提供更精细的创意控制，如摄像机运动指令（“从 iPhone 手持视角切换为电影级广角镜头”）、风格化滤镜与视觉特效。

奥特曼举例说明其潜力：设计师输入一段文字描述，即可生成带有配乐和动态运镜的短视频片段，用于广告原型或产品演示。

他还透露，OpenAI 正与 Mattel（芭比制造商）合作，帮助设计师将手绘草图转化为玩具概念视频。这标志着生成式 AI 开始深入传统制造业的设计流程。

生态协同：API更新与平台工具形成合力

此次 API 升级并非孤立动作，而是与当天发布的其他功能紧密配合：

AgentKit：帮助开发者构建可执行任务的 AI 代理；
ChatGPT 内建应用集成：允许用户在对话中直接使用外部服务；
现在再加上更强大、更细分的模型支持——OpenAI 正在打造一个从底层模型到上层应用的完整开发闭环。

早报 # GPT-5 Pro # OpenAI # Sora 2

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Meta 首届 LlamaCon AI 大会即将来袭，Llama 4 或成焦点

Meta 首届 LlamaCon AI 大会即将来袭，Llama 4 或成焦点

早报 # Llama 4 # LlamaCon # Meta

1年前

03170

谷歌AI 视频生成实验项目Sparkify：Gemini 与 Veo 驱动的未来内容创作工具

谷歌AI 视频生成实验项目Sparkify：Gemini 与 Veo 驱动的未来内容创作工具

早报 # Gemini # Sparkify # Veo

10个月前

02910

DeepSeek-V3.1-Terminus 正式上线：支持双模式推理，输出更稳定

DeepSeek-V3.1-Terminus 正式上线：支持双模式推理，输出更稳定

早报 # DeepSeek-V3.1-Terminus

7个月前

01220

Hugging Face 推出存储桶：专为机器学习中间文件打造的高效对象存储

Hugging Face 推出存储桶：专为机器学习中间文件打造的高效对象存储

早报 # Hugging Face # Storage Buckets # 存储桶

4周前

0320

暂无评论

none

暂无评论...