语音模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

新型歌曲生成模型JAM：让歌词精准变成完整歌曲

你有没有想过，输入一段歌词，再标上每个词该在什么时候唱，就能自动生成一首旋律自然、节奏准确、风格统一的完整歌曲？这不是未来设想，而是已经实现的技术突破。新加坡科技设计大学（SUTD）与 Lambd...

语音模型 # JAM # 歌曲生成模型

8个月前

01300

Boson AI 发布 Higgs Audio V2：首个开源的多说话者情感语音生成模型

Boson AI 正式推出 Higgs Audio Generation 版本2（Higgs Audio V2），这是Boson AI在音频生成领域的一次重要突破。该模型具备强大的多说话者对话生成能力...

语音模型 # Boson AI # Higgs Audio V2

9个月前

03190

字节跳动发布 Seed LiveInterpret 2.0：首个中英同传延迟与准确率接近人类水平的端到端语音翻译系统

在跨语言实时沟通的长期挑战中，机器能否真正替代人类同声传译？字节跳动 Seed 团队给出了迄今为止最接近“是”的答案。今日，字节跳动正式发布 Seed LiveInterpret 2.0 —— 一款...

语音模型 # Seed LiveInterpret 2.0 # 同声传译模型 # 字节跳动

9个月前

03410

SongBloom：一种实现结构连贯与高保真度的全曲生成新框架

在自动音乐生成领域，生成一首具备完整结构、风格统一、人声与伴奏和谐融合的全长歌曲，依然是极具挑战性的任务。现有方法——无论是基于语言模型的自回归生成，还是基于扩散模型的音频合成——往往面临两难困境...

语音模型 # SongBloom # 音乐生成

9个月前

01070

DMOSpeech 2：用强化学习优化语音合成的时长预测

在零样本文本到语音（TTS）领域，基于扩散模型的系统近年来取得了显著进展。然而，大多数方法仍难以实现对整个生成流程的端到端感知质量优化——尤其是时长预测这一关键组件，长期依赖自监督训练，未能与语音生成...

语音模型 # DMOSpeech 2 # TTS 框架

9个月前

03510

英伟达发布 Audio Flamingo 3：全球首个支持 10 分钟音频理解的开源模型

在视觉和文本领域大模型持续突破之后，音频理解也开始迎来新的里程碑。英伟达近日发布了 Audio Flamingo 3（AF3），这是目前最先进的开源大型音频语言模型（Large Audio Langu...

语音模型 # Audio Flamingo 3 # 英伟达 # 音频理解模型

9个月前

05500

Mistral 推出首个面向企业的开源语音理解模型 Voxtral：具备高精度的语音转录能力，还支持对音频内容的深度语义理解，如问答、摘要、翻译和功能调用

随着语音逐渐成为人机交互的核心方式，法国AI初创公司 Mistral 正式发布其首个开源音频模型 Voxtral，标志着其在语音智能领域的重大突破。 Voxtral 是一款面向企业的语音理解模型（Sp...

语音模型 # Mistral # Voxtral # 语音理解模型

9个月前

01850

B站推出IndexTTS2：自回归 TTS 模型的持续时间控制与情感表达新突破

在大规模文本转语音（TTS）模型的发展中，自回归与非自回归系统各有优劣。自回归模型虽然在语音自然度方面表现优异，但其逐标记生成机制难以实现对语音持续时间的精确控制。这一缺陷在视频配音等需要严格音画同步...

语音模型 # B站 # IndexTTS2

7个月前

05760

Kyutai Labs推出新一代流式TTS模型Kyutai TTS：实时语音生成迈入新阶段

近日，Kyutai Labs 正式开源了一款名为 Kyutai TTS 的文本转语音（TTS）模型，参数规模达到16亿，支持实时、流式处理，成为该领域的技术新标杆。这一模型不仅具备出色的语音生成能力...

语音模型 # Kyutai Labs # Kyutai TTS # TTS模型

9个月前

02810

阿里通义实验室联合港科大 & 浙大推出 ThinkSound：首个支持视频到音频生成与编辑的统一框架

阿里巴巴通义实验室联合香港科技大学与浙江大学的研究团队提出了一种全新的多模态视频-音频生成与编辑框架 —— ThinkSound。项目主页：https://thinksound-project.gi...

语音模型 # ThinkSound # 多模态视频-音频生成

9个月前

02190

阿里通义项目组更新 Qwen-TTS：合成语音自然度接近人类水平

阿里通义实验室通过 Qwen API 发布了最新版本的 Qwen-TTS 语音合成模型（支持 qwen-tts-latest 或 qwen-tts-2025-05-22）。该模型在语音合成领域实现了多...

语音模型 # Qwen-TTS

9个月前

04130

对话也能生成语音？复旦大学开源 MOSS-TTSD 实现高质量对话语音合成

复旦大学 OpenMOSS 团队正式发布了全新语音生成模型 MOSS-TTSD（Text to Spoken Dialogue），这是目前首个能够直接从对话文本生成自然、富有表现力对话语音的大规模模型...

语音模型 # MOSS-TTSD # 复旦大学

10个月前

07110

加载更多

新型歌曲生成模型JAM：让歌词精准变成完整歌曲

Boson AI 发布 Higgs Audio V2：首个开源的多说话者情感语音生成模型

字节跳动发布 Seed LiveInterpret 2.0：首个中英同传延迟与准确率接近人类水平的端到端语音翻译系统

SongBloom：一种实现结构连贯与高保真度的全曲生成新框架

DMOSpeech 2：用强化学习优化语音合成的时长预测

英伟达发布 Audio Flamingo 3：全球首个支持 10 分钟音频理解的开源模型

Mistral 推出首个面向企业的开源语音理解模型 Voxtral：具备高精度的语音转录能力，还支持对音频内容的深度语义理解，如问答、摘要、翻译和功能调用

B站推出IndexTTS2：自回归 TTS 模型的持续时间控制与情感表达新突破

Kyutai Labs推出新一代流式TTS模型Kyutai TTS：实时语音生成迈入新阶段

阿里通义实验室联合港科大 & 浙大推出 ThinkSound：首个支持视频到音频生成与编辑的统一框架

阿里通义项目组更新 Qwen-TTS：合成语音自然度接近人类水平

对话也能生成语音？复旦大学开源 MOSS-TTSD 实现高质量对话语音合成

新Flova

S.H.I.T

Meshy

Tripo

BuildCores

Alpha3D

语音模型

网址

新Flova

S.H.I.T

Meshy

Tripo

BuildCores

Alpha3D