
GPT-Realtime
gpt-realtime 的发布,不仅是技术迭代,更意味着 OpenAI 的语音能力已具备**企业级稳定性与功能性**。它不再只是一个演示功能,而是可以嵌入真实业务流程的工具。对于开发者而言,Realtime API 的全面开放,加上 SIP、MCP、图像输入等企业级功能的加入,意味着构建复杂语音应用的门槛正在降低。
法国AI公司Gladia正式发布新一代语音识别模型Solaria,重塑呼叫中心等语音优先平台的实时通信体验。这款企业级语音转文字(STT)引擎以行业领先的准确率和超低延迟,为全球客户服务市场带来突破性解决方案。



据Gladia CEO Jean-Louis Queguiner透露,全球49%的企业曾因语言障碍蒙受经济损失。Solaria的推出直接针对三大行业痛点:
Gladia已与开源实时AI语音框架LiveKit达成战略合作,通过API集成让开发者快速获得多语言能力。目前其客户网络覆盖Attention、VEED.IO等700多家企业,服务超过15万用户。
这家成立于2022年的巴黎初创公司在2024年获得1600万美元A轮融资后,正加速构建端到端音频API基础设施。Solaria作为其产品矩阵的最新成员,将语音识别、生成式AI与语音合成技术深度融合,重新定义实时语音数据处理的标准。

免费用户每月可以转录10小时内容,可以上传音视频也可使用麦克风进行实时转录

对于中文的转录效果不错,但断句可能会有点问题

Queguiner表示将继续通过数据增强训练提升准确率,虽然尚未公布具体企业定价,但承诺将成为"市场最具性价比的解决方案"。随着40人团队持续扩张,Gladia计划进一步巩固其在欧美市场的技术领先地位。







