Maitrix.org、加州大学圣地亚哥分校和MBZUAI的研究人员推出新型语音语言基础模型Voila ,旨在实现自然、实时、自主的语音交互。Voila 通过端到端的架构设计,突破了传统语音交互系统(如 Siri、Alexa 和 Google Assistant)的局限性,能够以低延迟(仅 195 毫秒)进行全双工对话,同时保留丰富的语音细节(如语调、节奏和情感)。
- 项目主页:https://voila.maitrix.org
- GitHub:https://huggingface.co/collections/maitrix-org/voila-67e0d96962c19f221fc73fa5
- Demo:https://huggingface.co/spaces/maitrix-org/Voila-demo
此外,Voila 支持超过一百万种预建语音,并能够从短短 10 秒的音频样本中高效定制新语音。Voila 不仅适用于语音对话,还统一支持自动语音识别(ASR)、文本到语音(TTS)等多种语音应用,并且可以轻松扩展到多语言语音翻译等任务。该模型完全开源,旨在推动下一代人机交互的研究和应用。

主要功能
- 低延迟全双工对话: Voila 能够以低延迟(195 毫秒)进行实时语音交互,超越人类平均反应时间(300 毫秒)。例如,在对话中,Voila 可以在用户说话的同时实时生成回应,就像人类之间的自然对话一样。
- 丰富的语音细节: Voila 保留了语音中的语调、节奏和情感等细节,使得语音生成更加自然。例如,用户可以定义一个“忧郁的诗人”角色,Voila 会根据该角色的设定生成相应的情感化语音。
- 语音定制: Voila 支持从简短的音频样本(10 秒)中快速定制新语音,用户可以轻松创建具有独特音色和情感的 AI 角色。例如,用户可以上传一段自己的语音,Voila 将生成与该语音风格一致的对话。
- 多语言支持: Voila 支持六种语言(英语、中文、法语、德语、日语和韩语),并可以扩展到多语言语音翻译任务。例如,用户可以用英语说话,Voila 可以实时翻译并用中文回应。
- 多任务支持: Voila 统一支持语音对话、ASR 和 TTS 等任务,无需针对每个任务进行专门的调整。例如,同一模型可以用于语音识别和语音生成。

主要特点
- 端到端架构: Voila 采用端到端的语音语言模型架构,直接处理音频信号,避免了传统系统中音频转文本再转语音的多模块延迟问题。
- 层次化多尺度 Transformer: Voila 的架构包括语音语言 LLM 主干和音频 Transformer,能够分别处理语义信息和音频细节,确保语音生成的自然性和一致性。
- 大规模预训练: Voila 在大量音频和文本数据上进行预训练,支持多种语音任务,并能够通过简单的指令和语音样本进行定制。
- 丰富的语音库: Voila 提供超过一百万种预建语音,用户可以根据需要选择或定制新的语音。
- 开源性: Voila 的模型和代码完全开源,支持开放研究和进一步的开发。
工作原理
- 语音分词(Voice Tokenization): Voila 使用神经音频编解码器(如 SoundStream)将连续音频信号转换为离散的音频分词(tokens),这些分词分为语义分词和声学分词。语义分词捕捉语言内容,声学分词保留语音细节。
- 文本与音频对齐(Text-Audio Alignment): Voila 在训练时将音频分词与文本词汇对齐,采用交错格式(interleaved format)将文本和音频分词交替排列,确保语义和语音细节的紧密对齐。
- 层次化生成(Hierarchical Generation): Voila 的 LLM 主干处理语义信息,音频 Transformer 根据语义输出生成音频分词,最终由音频编解码器解码为语音输出。
- 全双工交互(Full-Duplex Interaction): Voila 的自主交互模型(Voila-autonomous)能够同时处理用户的音频流和自身的音频流,实现双向实时交互。
- 语音定制(Voice Customization): Voila 使用特殊的语音嵌入(voice embedding)来捕捉说话者的独特语音特征,用户可以通过文本指令定义角色的个性和语音风格。
应用场景
- 智能语音助手: Voila 可以作为智能语音助手,实时响应用户的语音指令,提供信息查询、日程提醒、天气预报等服务。
- 语音角色扮演: 用户可以定义不同的角色(如“勇敢的骑士”或“温柔的老师”),Voila 根据角色设定生成相应的语音对话,用于游戏或教育场景。
- 多语言翻译: Voila 可以实时将一种语言的语音翻译成另一种语言的语音,支持跨语言交流。
- 无障碍技术: Voila 的 ASR 和 TTS 功能可以帮助听力障碍者或语言障碍者更好地进行语音交互。
- 智能客服: Voila 可以用于智能客服系统,实时回答客户问题,提供个性化的语音服务。
- 语音内容创作: 创作者可以使用 Voila 生成具有特定风格的语音内容,如有声读物、播客等。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...