语音模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

Meta 开源 Omnilingual ASR：支持 1600+ 语言的语音识别系统

Meta AI 近日发布了 Omnilingual ASR——一套开源、可扩展的多语言自动语音识别（ASR）系统，支持 1600 多种语言，并能通过零样本上下文学习泛化到超过 5400 种语言，包括...

3个月前

0660

Maya1：开源 3B 语音模型，支持自然语言控制与情感标签的文本到语音生成

Maya Research 近期发布了一款突破性的开源文本到语音（TTS）模型——Maya1。这款仅3B参数的模型，不仅能将文本与自然语言描述转化为富有情感的24kHz高质量语音，还支持单GPU实时运...

语音模型 # Maya1 # 语音模型

3个月前

0580

ElevenLabs 推出 Scribe v2：支持 90+ 语言的高精度批量转录模型

ElevenLabs 正式发布 Scribe v2——一款专为大规模音视频内容处理设计的新一代语音转文字模型。与主打低延迟的 Scribe v2 Realtime 不同，Scribe v2 面向批量转...

语音模型 # ElevenLabs # Scribe v2

3周前

0500

微软发布轻量级实时TTS模型VibeVoice-Realtime：300ms响应的流式长文本TTS模型

实时文本转语音（TTS）技术在智能助手、实时播报、大模型交互等场景中有着极高的需求，但传统模型往往面临“延迟高”“长文本生成不稳定”“流式输入支持差”等痛点。微软推出了一款轻量级实时TTS模型——V...

语音模型 # VibeVoice-Realtime # 微软

2个月前

0450

阶跃星辰开源Step-Audio-R1：首个支持测试时计算扩展的音频大语言模型，“越想越准”比肩Gemini 3

阶跃星辰开源的 Step-Audio-R1 打破了传统音频模型的性能瓶颈，成为首个支持“测试时计算扩展”的音频大语言模型。它通过创新的模态落地推理蒸馏技术，让模型直接基于声学特征进行链式思考，而非依赖...

语音模型 # Step-Audio-R1 # 阶跃星辰

2个月前

0400

Chatterbox-Turbo 发布：3.5 亿参数、一步解码、支持副语言标签的高效 TTS 模型

Resemble AI 正式开源 Chatterbox 系列——一个由三款高性能文本转语音（TTS）模型组成的开源 TTS 工具集，覆盖低延迟交互、多语言支持与创意语音控制三大典型场景。所有模型均支持...

语音模型 # Chatterbox-Turbo

1个月前

0330

阿里开源Marco-Voice：说话人-情感独立调控，语音克隆相似度0.8275碾压同类

阿里巴巴国际数字商务团队推出的开源语音合成框架 Marco-Voice，以“说话人-情感解耦”为核心创新，整合语音克隆、情感可控合成、跨语言生成三大功能，构建了统一且高效的文本转语音系统。该框架通过批...

语音模型 # Marco-Voice # TTS

2个月前

0330

智谱AI语音识别模型GLM-ASR双版本登场：云端版精准识别多场景，Nano版开源免费，笔记本/手机均可部署

智谱AI全新发布 GLM-ASR 系列语音识别模型，包含云端部署的 GLM-ASR-2512 与端侧轻量化的 GLM-ASR-Nano-2512 两个版本。其中 Nano 版以 1.5B 紧凑参数规模...

语音模型 # GLM-ASR-2512 # GLM-ASR-Nano-2512 # 智谱AI

2个月前

0310

智谱AI开源GLM-TTS：LLM驱动的高质量TTS系统，支持零样本克隆与情感增强

智谱AI推出的GLM-TTS是一款基于大语言模型的文本到语音合成系统，创新性采用LLM+Flow模型的两阶段架构，不仅实现了零样本语音克隆、流式推理等实用功能，还通过多奖励强化学习框架，大幅提升了语音...

语音模型 # GLM-TTS # 智谱AI

2周前

0270

通义百聆发布 Fun-Audio-Chat：8B 端到端语音模型，延迟更低、效率更高

通义实验室旗下语音团队通义百聆（Tongyi Bailin）正式推出 Fun-Audio-Chat —— 一款专为自然、低延迟语音交互设计的端到端大型音频语言模型（Audio Language Mo...

语音模型 # Fun-Audio-Chat # 通义百聆

1个月前

0230

面壁智能发布 VoxCPM1.5：6.25Hz 标记率降低计算开销，支持高质量声音克隆

2025 年 12 月 5 日，面壁智能正式发布 VoxCPM1.5 模型权重。作为 VoxCPM 系列的重大升级版本，它在保留上下文感知语音生成与零样本声音克隆能力的基础上，通过两项关键技术改进，显...

语音模型 # VoxCPM1.5 # 面壁智能

2个月前

0230

英伟达推出实时语音对话模型PersonaPlex，打造支持自定义角色与声音的自然对话AI

长期以来，语音对话 AI 面临一个根本性矛盾：传统级联系统（ASR → LLM → TTS）允许你自定义角色和声音，但对话僵硬、延迟高、无法被打断；全双工模型（如 Moshi）实现了自然的话轮转换...

语音模型 # PersonaPlex # 实时语音对话模型 # 英伟达

1周前

0210

加载更多

Meta 开源 Omnilingual ASR：支持 1600+ 语言的语音识别系统

Maya1：开源 3B 语音模型，支持自然语言控制与情感标签的文本到语音生成

ElevenLabs 推出 Scribe v2：支持 90+ 语言的高精度批量转录模型

微软发布轻量级实时TTS模型VibeVoice-Realtime：300ms响应的流式长文本TTS模型

阶跃星辰开源Step-Audio-R1：首个支持测试时计算扩展的音频大语言模型，“越想越准”比肩Gemini 3

Chatterbox-Turbo 发布：3.5 亿参数、一步解码、支持副语言标签的高效 TTS 模型

阿里开源Marco-Voice：说话人-情感独立调控，语音克隆相似度0.8275碾压同类

智谱AI语音识别模型GLM-ASR双版本登场：云端版精准识别多场景，Nano版开源免费，笔记本/手机均可部署

智谱AI开源GLM-TTS：LLM驱动的高质量TTS系统，支持零样本克隆与情感增强

通义百聆发布 Fun-Audio-Chat：8B 端到端语音模型，延迟更低、效率更高

面壁智能发布 VoxCPM1.5：6.25Hz 标记率降低计算开销，支持高质量声音克隆

英伟达推出实时语音对话模型PersonaPlex，打造支持自定义角色与声音的自然对话AI

新QoderWork

Clawdbot/Moltbot

Situation Monitor

CutCut

中国科技云数据胶囊

ITELLOU

语音模型

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

CutCut

中国科技云数据胶囊

ITELLOU