Cartesia

4个月前发布 46 00

Cartesia 不仅带来了 SSM 架构驱动的低延迟 TTS、真实场景优化的 STT 模型，更通过 Line 平台解决了语音代理开发的“最后一公里”问题。其核心价值在于：让“实时、自然、可靠”的语音交互不再是技术难题，让开发者无需关注底层模型与基础设施，专注于业务逻辑与用户体验。

所在地：

美国

收录时间：

2025-11-17

打开网站手机查看

AI语音 # AI 语音 # Cartesia # STT 模型

Cartesia

打开网站

当语音代理还在被“高延迟、低自然度、开发复杂”困扰时，AI 语音平台 Cartesia 带来了全链路革新——正式推出 Line 现代语音代理开发平台，同步升级 Sonic-3 实时 TTS 模型与 Ink 流式 STT 模型，构建“模型+平台”的完整生态。从 90ms 低延迟文本转语音、抗噪语音转文本，到代码优先的代理开发部署，Cartesia 旨在让企业与开发者轻松打造“自然、实时、可靠”的语音 AI 产品，覆盖对话交互、AI 化身、企业客服等多场景。

核心模型矩阵：Sonic（TTS）+Ink（STT），重新定义语音交互体验

Cartesia 的核心竞争力源于两款突破性语音模型，分别解决“语音输出”与“语音输入”的核心痛点：

1. Sonic 系列：全球最快的实时对话 TTS 模型

作为文本转语音领域的标杆，Sonic 模型以“低延迟、高自然度、多语言支持”为核心，最新迭代的 Sonic-3 更是实现技术飞跃：

性能突破：基于状态空间模型（SSMs）而非传统 Transformer 构建，模型延迟仅 90ms（约为眨眼速度的两倍），端到端延迟 190ms，号称“市场上最快”；若追求极致性能，Sonic Turbo 可实现 40ms 流式首字节输出，完美适配实时对话场景；
体验升级：支持超现实自然语音，包含笑声等完整情感范围，告别机械音；覆盖 42 种语言，满足全球化需求；
核心能力：支持声音克隆，对发音、口音提供完全控制，适用于配音、叙述、AI 化身等场景；
行业认可：已被 ServiceNow、Cresta 等数千家企业采用，每月驱动数百万次对话。

SSMs 架构的优势在于“类人记忆”——无需像 Transformer 那样每生成一个词就重看整个对话，而是记住核心主题与氛围，自然流畅地衔接上下文，大幅降低延迟的同时提升交互连贯性。

2. Ink 系列：为实时对话优化的流式 STT 模型

针对语音转文本的“实时性”与“抗干扰性”痛点，Cartesia 推出 Ink 系列 STT 模型，首发型号 Ink-Whisper 堪称对话 AI 专属优化：

核心定位：基于 OpenAI Whisper 变体重构，专为实时语音代理设计，而非批量音频处理；
突破传统局限：通过动态分块技术处理可变长度音频段，解决标准 Whisper 在电话伪影、背景噪音、口音、专有名词、口吃沉默等真实场景下的识别错误与幻觉问题；
性能与成本平衡：在背景噪音、专有名词、多口音等测试数据集上，词错误率（WER）优于 whisper-large-v3-turbo，同时定价仅 $0.13/小时，是市场上最实惠的流式 STT 模型；
无缝衔接：与 Sonic 模型形成“输入-输出”闭环，为语音代理提供端到端优化体验。

Line 平台：代码优先的现代语音代理开发利器

有了顶尖的语音模型，如何快速构建、部署、迭代语音代理？Cartesia 推出的 Line 平台 给出了答案——一款专为开发者设计的“全流程语音代理开发平台”，核心优势体现在三大维度：

1. 代码优先，灵活无束缚

拒绝僵化的对话构建器，Line 以代码为核心，让开发者可自由定义复杂业务逻辑、背景推理与上下文交互：

支持自定义 LLM 集成，轻松处理边缘场景；
可与任意偏好的工具包集成，无需妥协功能需求；
适配 AI 辅助开发趋势，让复杂语音代理的构建更高效、更易访问。

2. 快速迭代，全链路可追溯

Line 简化了“开发-部署-测试-优化”的全流程，让迭代周期大幅缩短：

快速上手：从文本提示或模板出发，几分钟内即可构建第一个代理；
便捷开发：支持本地开发（CLI 工具）、GitHub 集成，一键部署，几秒内即可与代理对话，还能分享给他人协作；
全面评估：自动记录所有通话的音频、转录内容，输出延迟等系统指标，提供完整日志用于调试；支持自定义 LLM-as-a-judge 指标，评估用户满意度、通话成功率等核心维度。

3. 原生集成，稳定可扩展

Line 与 Sonic、Ink 模型深度集成，同时提供企业级基础设施支持：

端到端优化：模型与平台协同部署，实现最低延迟，且优先适配 Cartesia 最新语音模型研究成果；
企业级部署：支持全本地部署，模型可通过微调自定义，满足数据安全与个性化需求；
全球分布式基础设施：保障代理可扩展到数千次并发通话，同时维持低延迟与高可靠性。

生态闭环：从模型到平台，覆盖全场景语音 AI 需求

Cartesia 此次发布形成了“模型（Sonic/Ink）+平台（Line）”的完整生态闭环，精准覆盖不同用户需求：

开发者：通过 Line 平台的代码优先模式，快速构建个性化语音代理，借助 Sonic/Ink 的低延迟、高准确率能力，降低开发门槛；
企业用户：享受开箱即用的高性能语音模型，支持本地部署与定制化，满足客服、智能助手、跨境沟通等场景的规模化需求；
行业场景：从实时对话机器人、AI 虚拟主播，到企业呼叫中心、跨境语音翻译，全链路覆盖语音 AI 应用场景。

数据统计

暂无评论

暂无评论...