新型语音语言基础模型Voila ：实现自然、实时、自主的语音交互

473 0

Maitrix.org、加州大学圣地亚哥分校和MBZUAI的研究人员推出新型语音语言基础模型Voila ，旨在实现自然、实时、自主的语音交互。Voila 通过端到端的架构设计，突破了传统语音交互系统（如 Siri、Alexa 和 Google Assistant）的局限性，能够以低延迟（仅 195 毫秒）进行全双工对话，同时保留丰富的语音细节（如语调、节奏和情感）。

项目主页：https://voila.maitrix.org
GitHub：https://huggingface.co/collections/maitrix-org/voila-67e0d96962c19f221fc73fa5
Demo：https://huggingface.co/spaces/maitrix-org/Voila-demo

此外，Voila 支持超过一百万种预建语音，并能够从短短 10 秒的音频样本中高效定制新语音。Voila 不仅适用于语音对话，还统一支持自动语音识别（ASR）、文本到语音（TTS）等多种语音应用，并且可以轻松扩展到多语言语音翻译等任务。该模型完全开源，旨在推动下一代人机交互的研究和应用。

主要功能

低延迟全双工对话： Voila 能够以低延迟（195 毫秒）进行实时语音交互，超越人类平均反应时间（300 毫秒）。例如，在对话中，Voila 可以在用户说话的同时实时生成回应，就像人类之间的自然对话一样。
丰富的语音细节： Voila 保留了语音中的语调、节奏和情感等细节，使得语音生成更加自然。例如，用户可以定义一个“忧郁的诗人”角色，Voila 会根据该角色的设定生成相应的情感化语音。
语音定制： Voila 支持从简短的音频样本（10 秒）中快速定制新语音，用户可以轻松创建具有独特音色和情感的 AI 角色。例如，用户可以上传一段自己的语音，Voila 将生成与该语音风格一致的对话。
多语言支持： Voila 支持六种语言（英语、中文、法语、德语、日语和韩语），并可以扩展到多语言语音翻译任务。例如，用户可以用英语说话，Voila 可以实时翻译并用中文回应。
多任务支持： Voila 统一支持语音对话、ASR 和 TTS 等任务，无需针对每个任务进行专门的调整。例如，同一模型可以用于语音识别和语音生成。

主要特点

端到端架构： Voila 采用端到端的语音语言模型架构，直接处理音频信号，避免了传统系统中音频转文本再转语音的多模块延迟问题。
层次化多尺度 Transformer： Voila 的架构包括语音语言 LLM 主干和音频 Transformer，能够分别处理语义信息和音频细节，确保语音生成的自然性和一致性。
大规模预训练： Voila 在大量音频和文本数据上进行预训练，支持多种语音任务，并能够通过简单的指令和语音样本进行定制。
丰富的语音库： Voila 提供超过一百万种预建语音，用户可以根据需要选择或定制新的语音。
开源性： Voila 的模型和代码完全开源，支持开放研究和进一步的开发。

工作原理

语音分词（Voice Tokenization）： Voila 使用神经音频编解码器（如 SoundStream）将连续音频信号转换为离散的音频分词（tokens），这些分词分为语义分词和声学分词。语义分词捕捉语言内容，声学分词保留语音细节。
文本与音频对齐（Text-Audio Alignment）： Voila 在训练时将音频分词与文本词汇对齐，采用交错格式（interleaved format）将文本和音频分词交替排列，确保语义和语音细节的紧密对齐。
层次化生成（Hierarchical Generation）： Voila 的 LLM 主干处理语义信息，音频 Transformer 根据语义输出生成音频分词，最终由音频编解码器解码为语音输出。
全双工交互（Full-Duplex Interaction）： Voila 的自主交互模型（Voila-autonomous）能够同时处理用户的音频流和自身的音频流，实现双向实时交互。
语音定制（Voice Customization）： Voila 使用特殊的语音嵌入（voice embedding）来捕捉说话者的独特语音特征，用户可以通过文本指令定义角色的个性和语音风格。