FlashLabs推出Chroma 1.0：首个开源实时语音对话模型，支持低延迟个性化语音克隆

489 0

在虚拟人交互与语音合成领域，兼顾低延迟、高保真语音克隆、多轮对话理解的模型一直是技术难点。由FlashLabs开发的 Chroma 1.0 正是一款突破性的多模态因果语言模型，它不仅能直接处理音频输入、同步生成文本与合成语音，更是首个开源的实时语音对话系统——凭借轻量级4B参数架构，实现了总延迟低于1秒的高自然度语音交互，为虚拟助手、个性化语音服务等场景提供了高效且可扩展的解决方案。

项目主页：https://www.flashlabs.ai/flashai-voice-agents
Hugging Face：https://huggingface.co/FlashLabs/Chroma-4B
魔塔：https://modelscope.cn/models/FlashLabs/Chroma-4B
Demo：https://chroma.flashlabs.ai

FlashLabs推出Chroma 1.0：首个开源实时语音对话模型，支持低延迟个性化语音克隆

模型核心信息：轻量架构，多模态能力打底

Chroma 1.0 定位为面向语音交互的虚拟人模型，核心架构由四大模块协同组成，兼顾理解与生成能力，同时保持轻量化特性：

模块名称	技术基底	核心作用
推理模块（Reasoner）	Qwen2.5-Omni-3B	处理文本+音频多模态输入，编码为高级语义表示，捕捉语言内容与声学特征
主干网络（Backbone）	Llama3（16层，隐藏层维度2048）	生成与参考音频匹配的语音，支持流式生成，实现低延迟交互
解码器（Decoder）	Llama3（4层，隐藏层维度1024）	生成剩余声学代码，降低计算开销，优化语音细粒度声学属性
编解码器（Codec）	Mimi（24kHz采样率）	将离散代码序列映射为高保真连续语音波形

基础属性

模型类型：多模态因果语言模型
开发方：FlashLabs
支持语言：英语
许可证：Apache-2.0（完全开源）
参数量级：4B（轻量级设计，兼顾性能与部署效率）

核心功能：四大能力，重构实时语音交互体验

Chroma 1.0 围绕“理解-生成-个性化-多轮对话”构建完整能力闭环，打破传统语音系统“理解与生成分离”的局限：

实时低延迟语音交互
采用交错的文本-音频令牌调度（1:2）机制，支持流式生成，系统总生成延迟仅 146.87毫秒，实时因子（RTF）达0.43——生成速度比实时播放快2.3倍，完全满足在线客服、语音导航等实时场景需求。
高保真个性化语音克隆
仅需几秒参考音频，就能精准捕捉说话人的音色、语速、情感等核心特征。零样本设置下语音相似度（SIM）达 0.817，比人类基线（0.73）高出10.96%；在说话人相似度（SCMOS）上与ElevenLabs持平，可广泛应用于语音恢复、虚拟主播个性化语音生成等场景。
多轮对话风格一致性
在连续多轮对话中，能稳定保持克隆语音的风格统一，即使中途更换说话人参考音频，也能快速适配新的声音特征，避免对话过程中语音风格割裂。
语音理解与推理
基于Qwen2.5-Omni-3B推理模块，不仅能生成语音，还能深度理解语音输入的语义，支持复杂对话任务推理，在口语对话能力上媲美GLM-4-Voice等大型模型，且参数量大幅降低。

核心特点：四大优势，轻量化架构的性能突破

Chroma 1.0 之所以能在轻量级参数下实现高性能，关键在于四大技术特点的加持：

低延迟流式架构
令牌调度机制实现文本与音频生成的并行处理，无需等待完整输入即可开始输出语音，从根本上缩短交互延迟，适配实时场景。
高保真语音合成
通过条件生成模型优化声学特征映射，结合Mimi编解码器的24kHz高采样率，确保合成语音的自然度与清晰度，兼顾“像”与“好听”。
轻量级高效设计
4B参数量级远小于同类大模型，在保证语音克隆与对话能力的前提下，大幅降低部署的硬件门槛，普通GPU即可流畅运行。
开源可扩展性
代码与模型完全开源，支持社区二次开发与功能扩展，无论是学术研究还是商业应用，都能基于现有架构快速定制个性化语音解决方案。

测试表现：数据说话，性能对标行业标杆

在多项核心指标测试中，Chroma 1.0 展现出远超同量级模型的实力：

测试维度	具体指标	表现结果
语音克隆相似度	零样本SIM值	0.817，超人类基线10.96%
主观评价	说话人相似度（SCMOS）	与ElevenLabs持平；自然度（NCMOS）略逊，后续可通过优化迭代提升
延迟性能	总生成延迟/实时因子	146.87ms / 0.43，生成速度是实时播放的2.3倍
对话推理能力	口语对话任务表现	媲美GLM-4-Voice等大型模型，轻量级架构实现高性能