语音模型

共 112 篇文章

包括文本生成音频、音乐生成模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

Grok Voice Agent API 上线：支持多语言、实时工具调用与低延迟语音交互

Grok Voice Agent API 上线：支持多语言、实时工具调用与低延迟语音交互

xAI 正式推出 Grok Voice Agent API，向开发者开放其在 Grok 移动应用及特斯拉车载系统中使用的语音交互技术。该 API 支持构建能实时对话、调用工具、搜索网络并流利使用数十种...

语音模型 # Grok Voice Agent

1个月前

0210

Nemotron-Speech-Streaming-En-0.6B：面向低延迟与高吞吐的流式语音识别模型

Nemotron-Speech-Streaming-En-0.6B：面向低延迟与高吞吐的流式语音识别模型

英伟达推出的 Nemotron-Speech-Streaming-En-0.6B 是 Nemotron Speech 系列中的首个统一语音识别（ASR）模型，专为实时英语转录场景设计。它同时支持低延迟...

语音模型 # Nemotron-Speech-Streaming-En-0.6B # 英伟达 # 语音识别

3周前

0150

通义千问开源 Qwen3-ASR 与 Qwen3-ForcedAligner：支持流式、多语言、高并发的语音识别与对齐工具

新通义千问开源 Qwen3-ASR 与 Qwen3-ForcedAligner：支持流式、多语言、高并发的语音识别与对齐工具

Qwen（通义千问）团队正式开源全新一代语音技术方案——Qwen3-ASR系列语音识别模型与Qwen3-ForcedAligner强制对齐模型。该系列包含Qwen3-ASR-1.7B、Qwen3-AS...

语音模型 # Qwen # Qwen3-ASR # Qwen3-ForcedAligner

1天前

0110

微软开源 VibeVoice-ASR：支持60分钟长音频的端到端语音转写模型

微软开源 VibeVoice-ASR：支持60分钟长音频的端到端语音转写模型

微软正式开源 VibeVoice-ASR——一款面向真实场景的统一语音识别模型。它能单次处理长达60分钟的连续音频，并输出包含说话人身份、精确时间戳与文本内容的结构化转录结果，同时支持用户注入自定义热...

语音模型 # VibeVoice-ASR # 微软

1周前

0100