Maya1:开源 3B 语音模型,支持自然语言控制与情感标签的文本到语音生成

Maya Research 近期发布了一款突破性的开源文本到语音(TTS)模型——Maya1。这款仅3B参数的模型,不仅能将文本与自然语言描述转化为富有情感的24kHz高质量语音,还支持单GPU实时运行,直接打破了此前专有TTS系统在“表现力”与“部署门槛”上的垄断。

无论是为虚拟助手定制专属声线、给游戏角色赋予独特语音,还是快速生成带情感的播客内容,Maya1都以开源、可控、高效的特性,为开发者和创作者提供了全新选择。

Maya1:开源 3B 语音模型,支持自然语言控制与情感标签的文本到语音生成

核心功能:用自然语言“指挥”语音风格

Maya1的核心优势在于“高度可控的表现力”,其操作逻辑简单直观,无需复杂参数配置:

1. 双输入设计,精准匹配需求

模型接受两个核心输入,即可生成定制化语音:

  • 自然语言语音描述:像给配音演员提要求一样自由表达,例如“20多岁的女性声音,英国口音,充满活力且发音清晰”“恶魔角色,男性低音,粗砺音色,缓慢节奏”;
  • 目标文本:需要被朗读的内容,支持在文本中插入内联情感标签,实现局部语气控制。

2. 20+情感标签,细化表现力

文本中可直接嵌入<laugh>(笑声)、<sigh>(叹息)、<whisper>(低语)、<angry>(愤怒)、<giggle>(轻笑)、<gasp>(惊呼)、<cry>(哭泣)等超过20种情感标签,让语音在关键节点自然传递情绪,避免生硬的“机器人语调”。

3. 输出特性:高质量+实时流式

最终输出24kHz单声道音频,兼顾音质与传输效率;同时支持实时流式传输,完美适配助手交互、直播、游戏等对延迟敏感的场景

Maya1:开源 3B 语音模型,支持自然语言控制与情感标签的文本到语音生成

技术架构:高效生成的核心逻辑

Maya1采用“Transformer解码器+神经音频编解码器”的分离式架构,既保证了生成质量,又降低了部署成本:

1. 模型基础:Llama风格仅解码器Transformer

核心模型基于Llama风格的仅解码器Transformer构建,参数规模仅3B,兼顾性能与轻量化。与传统TTS模型直接预测原始波形不同,Maya1专注于预测“SNAC神经音频编解码器”的离散令牌,大幅提升生成效率。

2. 关键组件:SNAC神经音频编解码器

SNAC是一款专为实时流式设计的神经音频编解码器,采用多尺度分层结构(支持约12、23、47Hz采样率),在保持自回归序列紧凑性的同时,能精准保留语音细节。其核心优势包括:

  • 生成流程:文本→分词→生成SNAC令牌(每帧7个令牌)→解码→24kHz音频;
  • 高效传输:支持约0.98kbps的实时流式传输,适配网络场景;
  • 分离设计:SNAC解码器(如hubertsiuzdak/snac_24khz)独立于生成模型,可单独调用,让生成过程更易扩展。

这种“生成令牌+独立解码”的模式,相比直接波形预测,不仅降低了模型计算量,还提升了语音生成的稳定性和可控性。

训练数据:从大规模预训练到精细化微调

Maya1的高质量表现,源于“互联网规模预训练+工作室级微调”的双阶段数据管道:

1. 预训练阶段:覆盖广泛声学特征

基于互联网规模的英语语音语料库进行预训练,目的是学习丰富的声学覆盖范围和自然的语音韵律,为模型打下基础。

2. 微调阶段:聚焦表现力与可控性

在精选的专有工作室录音数据集上进行微调,数据具备三大特点:

  • 标注细致:每个样本均有人类验证的语音描述、超过20个情感标签;
  • 多样性强:涵盖多种英语口音、不同角色声线和语音变体;
  • 处理规范:经过严格的数据预处理流程,确保质量统一:
    1. 24kHz单声道重采样,响度归一化至-23 LUFS;
    2. 语音活动检测,修剪沉默片段,保留1-14秒有效内容;
    3. 使用Montreal Forced Aligner进行强制对齐,优化短语边界;
    4. MinHash LSH文本去重+Chromaprint音频去重,避免数据冗余;
    5. SNAC编码,按每帧7个令牌打包处理。

3. 格式优化:自然语言描述的高效编码

为解决“模型误读描述”或“泛化不佳”的问题,团队最终采用XML风格的属性包装器编码描述与文本,既支持自由形式的描述(类似配音简报),又能让模型精准识别指令,无需开发者学习自定义参数格式。

部署方案:单GPU即可落地,支持多场景适配

Maya1的设计初衷之一是“降低使用门槛”,提供了从快速测试到生产部署的全流程支持,核心亮点是“单GPU实时运行”:

1. 基础部署要求

  • 硬件:推荐16GB及以上显存的单GPU(如A100、H100专业卡,或消费级RTX 4090);
  • 软件:通过Hugging Face加载,核心代码示例:
    from transformers import AutoModelForCausalLM
    from snac import SNAC
    
    # 加载Maya1模型
    model = AutoModelForCausalLM.from_pretrained(
        "maya-research/maya1",
        torch_dtype=torch.bfloat16,
        device_map="auto"
    )
    # 加载SNAC解码器
    snac = SNAC.from_pretrained("hubertsiuzdak/snac_24khz")
    

2. 生产级部署工具

  • vLLM流式推理脚本:提供vllm_streaming_inference.py,支持自动前缀缓存(优化重复语音描述场景)、WebAudio环形缓冲区、多GPU扩展,目标延迟低于100毫秒,满足实时交互需求;
  • 轻量化变体:发布GGUF量化版本,可通过llama.cpp部署,进一步降低硬件要求;
  • 可视化工具:提供ComfyUI节点,集成情感标签助手和SNAC解码器,拖拽式操作即可生成语音。

3. 快速体验渠道

官方在Hugging Face Space提供交互式浏览器演示,用户无需部署,直接输入文本和语音描述就能听取生成结果,快速验证效果。

© 版权声明

相关文章

暂无评论

none
暂无评论...