Vogent 是一个功能强大的AI语音平台,结合无代码工具、先进模型和灵活的 API,为企业和开发者提供快速构建高性能语音代理的解决方案。其 Voicelab 进一步增强了实时语音推理能力,特别适合需要低延迟、类人语音交互的场景。

平台的目标是通过直观的工具和强大的技术栈,帮助企业快速创建语音 AI 代理,广泛应用于医疗、客户支持、旅游、物流等行业,显著降低运营成本并提升客户体验。
主要功能与特性
Vogent 提供了一系列功能,旨在简化语音代理的创建和优化:
- 无代码 Flow Builder:通过拖放式界面,用户无需编码即可设计复杂的对话流程,从创意到上线语音代理只需几分钟。
- 多层次模型:包括交互式语音响应(IVR)检测、语音活动检测(VAD)和导航模型,能够处理复杂的电话菜单并确保连接到人工客服。
- 定制与现成模型:支持 Vogent 自主研发的电话优化对话模型(基于数百万通真实电话数据微调),同时兼容 GPT 等现成模型,以及 OpenAI 兼容 API 和开源模型。
- 低延迟与类人交互:提供低于 700 毫秒的响应延迟(99% 的情况下),通过优化的语音模型(如 Sesame CSM-1B)实现自然对话,包含自然的停顿和语气词(如“um”、“uh”)。
- 自学习功能:通过强化学习技术,Vogent 的语音代理能够基于真实通话记录自我设计和改进,无需繁琐的提示工程或大量微调。
- 通话分析与优化:提供详细的通话记录和转录,允许用户分析决策过程并通过“反事实分析”测试新代理在历史通话中的表现。
- 集成与自动化:支持 REST 和 GraphQL API 集成,可与现有系统无缝连接;通话后自动化功能可触发智能工作流程(如更新 CRM 或跟进客户)。
- 安全与合规:提供 HIPAA 合规的语音和工作空间,SOC 2 Type II 审计报告待完成,确保数据安全和隐私。
- 多模态支持:支持语音克隆(零样本或微调),并提供多种语音选项,包括 Sesame CSM-1B、Dia、Chatterbox、Orpheus 等模型。
- 灵活部署:支持通过 API 或在本地/私有云(VPC)部署推理栈,适合高容量用户。
根据官网,Vogent 的性能指标包括:
- 平均响应延迟:200ms(使用自定义模型和语音)。
- 平均降低呼叫中心/劳动成本:75%。
- 每月通话量:超过 100 万通。
定价与目标用户
Vogent 提供灵活的定价模型,适合不同规模的用户:
| 计划类型 | 定价 | 功能 |
|---|
| 按需付费 | 9美分/分钟,按秒计费 | 包含所有功能、Flow Builder、高级语音(额外 5.1美分/分钟)、Discord/Email 支持、社区论坛 |
| 企业计划 | 联系获取定价,低至 6美分/分钟 | 高容量折扣(高达 50% 优惠)、自定义模型/语音、专属客户经理、Slack 支持 |
目标用户包括需要自动化电话交互的行业,如:
- 医疗:用于联系保险公司(资格验证、预授权等)、药房(处方管理)、患者和诊所。
- 客户支持:优化呼叫中心操作,降低高达 75% 的成本。
- 旅游与物流:处理预订、调度和复杂知识检索任务。
- 非营利组织与初创企业:用于外展、客户发现和高效沟通。
Vogent Voicelab 是 Vogent 平台的一个重要组成部分,于 2025 年 7 月进入公开测试阶段,专注于提供高性能、低延迟的文本转语音(TTS)API,支持顶级开源语音模型(如 Sesame CSM-1B、Dia、Orpheus 等)。它解决了开源 TTS 模型在高容量、低延迟推理中的常见问题,如幻觉、不一致输出和计算管理复杂性。

核心功能
- 高性能推理栈:使用专有推理栈优化 TTS 变压器,确保实时推理和低于 200 毫秒的首次令牌时间(TTFT)。
- 高质量语音克隆:支持零样本语音克隆,或通过 Vogent 的微调配方进一步调整语音风格,所有训练和托管均在 Vogent 的基础设施上完成。
- 可扩展性:从单一语音到数千个并发语音代理,基础设施可根据使用量自动扩展并全球部署。
- 简单集成:通过标准 TTS API(支持流式传输/websocket)提供访问,开发者只需几行代码即可开始使用,无需自行管理计算资源。
- 后训练优化:对模型进行后训练以提高一致性和质量,确保生产环境中运行最先进的语音研究成果。
最新模型详情
以下是 Voicelab 支持的最新模型及其特性:
| 模型名称 | 特性 | 使用场景 |
|---|
| Sesame CSM-1B | 超真实,优化实时推理,支持自然停顿和语气词 | 语音代理,生产环境,易于集成,无需计算管理 |
| Dia | 超真实,<200ms 首次令牌时间,优化实时推理 | 语音代理,生产环境,易于集成,无需计算管理 |
| Chatterbox | 超真实,优化质量 | 语音代理,生产环境,易于集成,无需计算管理 |
| Orpheus | 超真实,优化质量 | 语音代理,生产环境,易于集成,无需计算管理 |
| Kokoro | 超真实,优化质量 | 语音代理,生产环境,易于集成,无需计算管理 |
这些模型均支持通过 Vogent 的 API 运行,适合需要实时语音交互的场景。
定价与合规
Voicelab 的定价包括:
- 免费:0 美元/月,6美分/1000 字符,1 个并发请求。
- $20/月:4美分/1000 字符,3 个并发请求。
- $150/月:3美分/1000 字符,30 个并发请求,支持托管微调、HIPAA 合规和专属 Slack 支持。
- 企业定制:提供无限并发、定制训练语音、专属账户经理和高容量折扣。
Voicelab 符合 SOC 2 Type II 和 HIPAA 标准,确保数据安全和隐私,并为高容量用户提供承诺使用折扣。
开发者支持与最新动态
- API 与 SDK:提供 GraphQL 和 REST API 以及 JavaScript SDK,移动端 SDK 正在测试中(可通过邮件联系获取 beta 访问)。
- 文档与社区:通过官网提供详细开发者文档(docs.vogent.ai),并支持 Discord 社区、电子邮件和论坛交流。
- 快速入门:用户可通过直观的控制台快速设置代理,例如选择电话号码(支持美国号码,英国号码需购买)并配置通话流程。
最新动态包括:
- 自学习语音代理:2025 年 3 月推出,利用强化学习技术,代理可基于通话记录自我优化,用户可通过 app.vogent.ai 的“Self Learning”选项注册体验。
- Sesame CSM-1B 集成:2025 年 4 月优化了 Sesame 的 1B 参数 TTS 模型,支持实时、低延迟推理,提供超现实的语音体验,用户可拨打 (510) 315-0014 测试 AI Trump 语音代理。
- Voicelab 公测:2025 年 7 月进入公开测试,提供优化的 API 和高质量语音克隆功能,开发者可通过 app.vogent.ai 注册并选择 Sesame 语音。