
当语音代理还在被“高延迟、低自然度、开发复杂”困扰时,AI 语音平台 Cartesia 带来了全链路革新——正式推出 Line 现代语音代理开发平台,同步升级 Sonic-3 实时 TTS 模型与 Ink 流式 STT 模型,构建“模型+平台”的完整生态。从 90ms 低延迟文本转语音、抗噪语音转文本,到代码优先的代理开发部署,Cartesia 旨在让企业与开发者轻松打造“自然、实时、可靠”的语音 AI 产品,覆盖对话交互、AI 化身、企业客服等多场景。

核心模型矩阵:Sonic(TTS)+Ink(STT),重新定义语音交互体验
Cartesia 的核心竞争力源于两款突破性语音模型,分别解决“语音输出”与“语音输入”的核心痛点:
1. Sonic 系列:全球最快的实时对话 TTS 模型
作为文本转语音领域的标杆,Sonic 模型以“低延迟、高自然度、多语言支持”为核心,最新迭代的 Sonic-3 更是实现技术飞跃:
- 性能突破:基于状态空间模型(SSMs)而非传统 Transformer 构建,模型延迟仅 90ms(约为眨眼速度的两倍),端到端延迟 190ms,号称“市场上最快”;若追求极致性能,Sonic Turbo 可实现 40ms 流式首字节输出,完美适配实时对话场景;
- 体验升级:支持超现实自然语音,包含笑声等完整情感范围,告别机械音;覆盖 42 种语言,满足全球化需求;
- 核心能力:支持声音克隆,对发音、口音提供完全控制,适用于配音、叙述、AI 化身等场景;
- 行业认可:已被 ServiceNow、Cresta 等数千家企业采用,每月驱动数百万次对话。
SSMs 架构的优势在于“类人记忆”——无需像 Transformer 那样每生成一个词就重看整个对话,而是记住核心主题与氛围,自然流畅地衔接上下文,大幅降低延迟的同时提升交互连贯性。
2. Ink 系列:为实时对话优化的流式 STT 模型
针对语音转文本的“实时性”与“抗干扰性”痛点,Cartesia 推出 Ink 系列 STT 模型,首发型号 Ink-Whisper 堪称对话 AI 专属优化:
- 核心定位:基于 OpenAI Whisper 变体重构,专为实时语音代理设计,而非批量音频处理;
- 突破传统局限:通过动态分块技术处理可变长度音频段,解决标准 Whisper 在电话伪影、背景噪音、口音、专有名词、口吃沉默等真实场景下的识别错误与幻觉问题;
- 性能与成本平衡:在背景噪音、专有名词、多口音等测试数据集上,词错误率(WER)优于 whisper-large-v3-turbo,同时定价仅 $0.13/小时,是市场上最实惠的流式 STT 模型;
- 无缝衔接:与 Sonic 模型形成“输入-输出”闭环,为语音代理提供端到端优化体验。
Line 平台:代码优先的现代语音代理开发利器
有了顶尖的语音模型,如何快速构建、部署、迭代语音代理?Cartesia 推出的 Line 平台 给出了答案——一款专为开发者设计的“全流程语音代理开发平台”,核心优势体现在三大维度:
1. 代码优先,灵活无束缚
拒绝僵化的对话构建器,Line 以代码为核心,让开发者可自由定义复杂业务逻辑、背景推理与上下文交互:
- 支持自定义 LLM 集成,轻松处理边缘场景;
- 可与任意偏好的工具包集成,无需妥协功能需求;
- 适配 AI 辅助开发趋势,让复杂语音代理的构建更高效、更易访问。
2. 快速迭代,全链路可追溯
Line 简化了“开发-部署-测试-优化”的全流程,让迭代周期大幅缩短:
- 快速上手:从文本提示或模板出发,几分钟内即可构建第一个代理;
- 便捷开发:支持本地开发(CLI 工具)、GitHub 集成,一键部署,几秒内即可与代理对话,还能分享给他人协作;
- 全面评估:自动记录所有通话的音频、转录内容,输出延迟等系统指标,提供完整日志用于调试;支持自定义 LLM-as-a-judge 指标,评估用户满意度、通话成功率等核心维度。
3. 原生集成,稳定可扩展
Line 与 Sonic、Ink 模型深度集成,同时提供企业级基础设施支持:
- 端到端优化:模型与平台协同部署,实现最低延迟,且优先适配 Cartesia 最新语音模型研究成果;
- 企业级部署:支持全本地部署,模型可通过微调自定义,满足数据安全与个性化需求;
- 全球分布式基础设施:保障代理可扩展到数千次并发通话,同时维持低延迟与高可靠性。
生态闭环:从模型到平台,覆盖全场景语音 AI 需求
Cartesia 此次发布形成了“模型(Sonic/Ink)+平台(Line)”的完整生态闭环,精准覆盖不同用户需求:
- 开发者:通过 Line 平台的代码优先模式,快速构建个性化语音代理,借助 Sonic/Ink 的低延迟、高准确率能力,降低开发门槛;
- 企业用户:享受开箱即用的高性能语音模型,支持本地部署与定制化,满足客服、智能助手、跨境沟通等场景的规模化需求;
- 行业场景:从实时对话机器人、AI 虚拟主播,到企业呼叫中心、跨境语音翻译,全链路覆盖语音 AI 应用场景。
数据统计
相关导航


AI Speaker

WhisperLiveKit

OpenAI音频模型

Vogent

GPT-Realtime

Gladia






