新型多模态音频生成框架AudioX:通过统一的模型架构实现从各种输入模态(如文本、视频、图像、音频等)生成高质量的音频和音乐

新型多模态音频生成框架AudioX:通过统一的模型架构实现从各种输入模态(如文本、视频、图像、音频等)生成高质量的音频和音乐

香港科技大学的研究人员推出新型多模态音频生成框架“AudioX”,通过统一的模型架构实现从各种输入模态(如文本、视频、图像、音频等)生成高质量的音频和音乐。该框架通过创新的多模态掩码训练策略,强制模型...
7个月前
01740
Mistral 推出首个面向企业的开源语音理解模型 Voxtral:具备高精度的语音转录能力,还支持对音频内容的深度语义理解,如问答、摘要、翻译和功能调用

Mistral 推出首个面向企业的开源语音理解模型 Voxtral:具备高精度的语音转录能力,还支持对音频内容的深度语义理解,如问答、摘要、翻译和功能调用

随着语音逐渐成为人机交互的核心方式,法国AI初创公司 Mistral 正式发布其首个开源音频模型 Voxtral,标志着其在语音智能领域的重大突破。 Voxtral 是一款面向企业的语音理解模型(Sp...
5个月前
01530