Magenta RealTime:一个可交互、可定制的开源实时音乐生成模型当 AI 生成音乐从“预设播放”走向“实时演奏”,我们正在见证创作方式的一次深刻转变。 传统的音乐生成模型通常以“批处理”模式运行:输入一段提示,等待几秒后输出完整音频。这种模式虽能产出完整作品,却缺...语音模型# Magenta RealTime# 实时音乐生成模型4个月前01780
新型多模态音频生成框架AudioX:通过统一的模型架构实现从各种输入模态(如文本、视频、图像、音频等)生成高质量的音频和音乐香港科技大学的研究人员推出新型多模态音频生成框架“AudioX”,通过统一的模型架构实现从各种输入模态(如文本、视频、图像、音频等)生成高质量的音频和音乐。该框架通过创新的多模态掩码训练策略,强制模型...语音模型# AudioX# 多模态音频生成7个月前01740
中科院+腾讯提出AudioStory:LLM+TTA协同,破解长篇叙事音频“不连贯”痛点文本到音频(TTA)技术已能生成高质量短音频片段,但面对“雨中追逐场景”“视频配音旁白”这类需要时间连贯性、情感一致性的长篇叙事需求时,传统模型常出现“声音断层”“氛围割裂”等问题。 GitHub:h...语音模型# AudioStory# TTA3个月前01670
Mistral 推出首个面向企业的开源语音理解模型 Voxtral:具备高精度的语音转录能力,还支持对音频内容的深度语义理解,如问答、摘要、翻译和功能调用随着语音逐渐成为人机交互的核心方式,法国AI初创公司 Mistral 正式发布其首个开源音频模型 Voxtral,标志着其在语音智能领域的重大突破。 Voxtral 是一款面向企业的语音理解模型(Sp...语音模型# Mistral# Voxtral# 语音理解模型5个月前01530
Stable Audio 2.5 发布:Stability AI 推出首款企业级音效制作专用音频模型Stability AI 正式推出 Stable Audio 2.5——这是业内首款专为企业级音效制作设计的音频生成模型。该模型聚焦企业在规模化定制高质量音频时的核心需求,通过技术升级与生态合作,助力...语音模型# Stability AI# Stable Audio 2.53个月前01520
音频描述数据集FusionAudio-1.2M:通过多模态上下文融合来生成细粒度的音频描述香港中文大学(深圳)和华南理工大学的研究人员推出推出一个名为FusionAudio-1.2M的音频描述数据集,通过多模态上下文融合来生成细粒度的音频描述。该数据集通过模拟人类听觉感知的方式,整合了多种...语音模型# FusionAudio-1.2M6个月前01460
Kyutai 推出全新语音系统Unmute,让任何大模型都能“说话”Kyutai 近日发布了一款名为 Unmute 的全新语音 AI 系统。与以往语音模型不同,Unmute 并不试图替代现有的语言模型,而是作为一个高度模块化的“插件”,可以无缝接入任意文本大语言模型...语音模型# Kyutai# Unmute# 语音模型7个月前01420
ElevenLabs 发布音效生成模型SFX v2:音效生成更真实,支持无缝循环ElevenLabs 今天推出了其音效生成模型 SFX v2,在音质、功能和使用体验上实现多项重要升级。现在,用户只需输入一段文字提示,即可生成高质量、可循环的环境音效,适用于有声书、播客、视频、冥想...语音模型# ElevenLabs# SFX v2# 音效生成模型3个月前01410
KaniTTS 发布:一种高效且富有表现力的文本到语音模型NineNineSix 团队近日推出 KaniTTS ——一个专为低延迟、高保真语音合成设计的开源文本到语音(TTS)系统。 GitHub:https://github.com/nineninesix...语音模型# KaniTTS2个月前01380
香港中文大学(深圳)提出语音到语音大语言模型EchoX:用“回声训练”弥合语音生成中的语义鸿沟近年来,语音到语音大语言模型(Speech-to-Speech LLMs, SLLMs)成为多模态 AI 的重要方向——用户说一句话,模型直接以语音回应,无需经过“语音→文本→语音”的中间转换。 但这...语音模型# EchoX# 语音到语音大语言模型3个月前01280
新型歌曲生成模型JAM:让歌词精准变成完整歌曲你有没有想过,输入一段歌词,再标上每个词该在什么时候唱,就能自动生成一首旋律自然、节奏准确、风格统一的完整歌曲? 这不是未来设想,而是已经实现的技术突破。 新加坡科技设计大学(SUTD)与 Lambd...语音模型# JAM# 歌曲生成模型4个月前01140
阶跃星辰开源 Step-Audio-EditX:首个基于 LLM 的迭代式音频编辑模型阶跃星辰(Step AI)正式发布 Step-Audio-EditX —— 一款革命性的基于大语言模型(LLM)的音频编辑系统,首次实现对语音情感、说话风格与副语言特征的高精度、迭代式、零样本控制,并...语音模型# Step-Audio-EditX# 阶跃星辰# 音频编辑模型1个月前01120