Groq与PlayAI宣布建立合作伙伴,让语音AI听起来更像人类

早报4天前发布 小马良
27 0

语音AI领域,自然流畅的语音交互一直是技术追求的目标。GroqPlayAI今天宣布建立合作伙伴关系,通过Groq的高速推理平台将PlayAI的先进文本转语音模型Dialog推向市场。这次合作结合了PlayAI在语音AI方面的专长与Groq的专业处理基础设施,创造出目前最自然、最具响应性的文本转语音系统之一。

Groq与PlayAI宣布建立合作伙伴,让语音AI听起来更像人类

合作亮点

一站式解决方案

Groq提供了一个完整的低延迟系统,集成了自动语音识别(ASR)、生成式AI和文本转语音功能,全部集中在一个平台上。Groq首席营收官Ian Andrews表示:“现在Dialog运行在GroqCloud上,这意味着客户无需为单一用例使用多个供应商——Groq是一个一站式解决方案。”

首款阿拉伯语语音AI

Dialog的一个显著特点是它同时支持英语和阿拉伯语,其中阿拉伯语版本是专为中东地区设计的首款语音AI。选择阿拉伯语作为初始功能之一对两家公司来说具有战略意义。Groq通过与PlayAI合作提供阿拉伯语TTS模型,打开了一个关键的全球市场,并为更多人提供了快速AI推理的访问权限。

强大的性能表现

根据第三方评估机构Podonos的基准测试,Dialog的用户偏好率相比ElevenLabs v2.5 Turbo高达10:1,相比ElevenLabs Multilingual v2.0超过3:1。这表明Dialog在自然语音模式和响应速度方面具有显著优势。

技术创新

自适应语音上下文处理器

Dialog的独特之处在于其复杂的上下文处理方式。该系统并非将每次发声视为孤立事件,而是保持对整个对话流的感知。PlayAI联合创始人兼首席执行官Mahmoud Felfel表示:“我们构建了一种新颖的架构,称为‘自适应语音上下文处理器’(ASC),使模型能够利用对话的完整上下文和历史。这意味着每个回应不仅仅是独立的输出,而是根据对话流程融入了适当的韵律、语气和情感。”

高速推理能力

对于对话式AI来说,延迟是一个持续的挑战。Groq的专用语言处理单元(LPU)在这方面提供了显著优势。根据初步内部测试,Groq在PlayAI的Dialog模型上每秒可生成高达140个字符,相比在GPU上运行的同一模型(每秒86个字符)有了显著提升。这意味着Dialog生成文本的速度高达实时的10倍。

市场与应用前景

企业应用的拓展

随着企业寻求自动化客户交互,同时保持自然、类人的体验,语音AI市场增长迅速。应用范围涵盖客户服务、销售自动化、配音以及为视障人士提供的无障碍功能。除了传统的客户服务场景,Dialog还可以用于自动化销售和预约安排、入职和个人助理、为现有内容创建配音、将英语音频和视频内容翻译成阿拉伯语、提升网站和静态内容对视障人士的可访问性等。

中东科技影响力的扩展

对于由中东和北非地区企业家创立的PlayAI来说,加入阿拉伯语功能尤为意义深远。PlayAI的联合创始人Felfel表示:“作为MENA地区的创始人,我们知道该地区正在大力投资AI能力和基础设施,这一点在Groq的投资以及全球领先的采用率中都有所体现。阿拉伯语是一门全球商业语言,也是我们小时候说的语言,因此将其作为我们的核心语言之一是自然的选择。”

合作背景与支持

Groq的扩张与投资

此次合作正值Groq显著扩张之际,该公司最近从沙特阿拉伯获得了15亿美元的承诺资金,用于进一步的基础设施建设。公司已在达曼建立了一个数据中心,称之为“该地区最大的推理集群”。PlayAI的联合创始人Felfel表示:“与Groq合作是显而易见的选择;他们在高级AI推理基础设施领域是行业领导者。对于TTS和代理,低延迟至关重要。我们已经优化了Dialog以适应这些实时应用,但与Groq合作让我们能够提供市场上延迟最低的语音模型。”

GroqCloud的分级服务模式

两家公司通过GroqCloud的分级服务模式提供了Dialog技术,包括免费和付费选项。这种方式允许开发者在承诺更大规模实施之前先体验该技术。Groq首席营收官Ian Andrews解释道:“GroqCloud提供免费和付费计划。任何人都可以免费创建账户并生成API代码。我们的付费开发者层是自助服务,意味着任何拥有信用卡的人都可以自行注册。”

© 版权声明

相关文章

暂无评论

none
暂无评论...