MMAudio:基于多模态联合训练的同步音频生成系统近年来,多模态生成模型在图像、视频和文本等领域取得了显著进展,但将视觉和文本信息与音频生成结合的任务仍然具有挑战性。传统的音频生成方法通常依赖于单一模态(如仅基于文本或仅基于视频),难以实现高质量的音...语音模型# MMAudio# 音频生成10个月前03000
音乐生成基础模型ACE-Step:通过创新的整体架构设计,快速生成高质量音乐ACE Studio和阶跃星辰(StepFun)联合推出了一款全新的开源音乐生成基础模型ACE-Step,该模型通过创新的整体架构设计,突破了现有方法的局限性,实现了卓越的性能表现。 GitHub:h...语音模型# ACE-Step# 音乐模型7个月前02990
面壁智能发布VoxCPM:无需分词器的TTS,用于上下文感知的语音生成和真实感声音克隆在语音合成领域,大多数主流 TTS(Text-to-Speech)模型依赖于将语音信号离散化为“音素”或“语音标记”——这一过程虽然便于建模,但也带来了固有局限: 声音细节丢失、韵律不自然、跨说话人迁...语音模型# TTS# VoxCPM# 面壁智能3个月前02980
Kyutai STT:低延迟、高吞吐的流式语音识别模型,专为实时交互优化近日,Kyutai 实验室发布了一款全新的流式语音转文本(Speech-to-Text)模型——Kyutai STT,专为实时语音交互场景设计,在延迟与准确性之间实现了出色平衡,非常适合如语音助手、在...语音模型# Kyutai STT# 语音识别模型6个月前02960
SparkAudio推出Spark-TTS:基于大语言模型的高效文本到语音系统香港科技大学、SparkAudio开源社区、上海出门问问信息技术有限公司、上海交通大学、南洋理工大学、西北工业大学和网易伏羲人工智能实验室的研究人员推出Spark-TTS,这是一个基于大语言模型(LL...语音模型# Spark-TTS# SparkAudio# 文本到语音9个月前02950
ElevenLabs 推出语音转文本模型 Scribe,多语言支持与高精度ElevenLabs 是一家专注于人工智能音频生成的初创公司,最近筹集了 1.8 亿美元的资金,估值达到 33 亿美元。以其高质量的声音合成技术而闻名,该公司现在正通过推出其首个独立的语音转文本模型 ...语音模型# ElevenLabs# Scribe# 语音识别9个月前02900
字节跳动发布 Seed LiveInterpret 2.0:首个中英同传延迟与准确率接近人类水平的端到端语音翻译系统在跨语言实时沟通的长期挑战中,机器能否真正替代人类同声传译?字节跳动 Seed 团队给出了迄今为止最接近“是”的答案。 今日,字节跳动正式发布 Seed LiveInterpret 2.0 —— 一款...语音模型# Seed LiveInterpret 2.0# 同声传译模型# 字节跳动5个月前02870
通义语音团队推出语音生成模型CosyVoice 2:提升了多语言语音合成的质量、响应速度和实时性能阿里巴巴旗下通义实验室语音团队在之前提出的 CosyVoice 基础上,推出了全新的 CosyVoice 2。该模型通过一系列优化和创新,显著提升了多语言语音合成的质量、响应速度和实时性能。CosyV...语音模型# CosyVoice 2# 语音生成模型10个月前02840
Sesame 团队推出新一代语音技术 CSM:让语音助手更像真人Sesame 团队近期发布了一项名为 Conversational Speech Model (CSM) 的全新语音技术,旨在解决当前语音助手普遍存在的“死板”问题。这项技术的目标是让语音助手不仅能够...语音模型# CSM# 语音技术9个月前02820
北京沐言智语科技开源专为播客场景优化的可训练TTS模型 Muyan-TTS 北京沐言智语科技开源可训练文本到语音(TTS)模型 Muyan-TTS ,专为播客场景优化,并在5万美元的预算内开发。该模型通过在超过10万小时的播客音频数据上进行预训练,能够实现高质量的零样本文本到...语音模型# Muyan-TTS# TTS模型7个月前02790
DMOSpeech 2:用强化学习优化语音合成的时长预测在零样本文本到语音(TTS)领域,基于扩散模型的系统近年来取得了显著进展。然而,大多数方法仍难以实现对整个生成流程的端到端感知质量优化——尤其是时长预测这一关键组件,长期依赖自监督训练,未能与语音生成...语音模型# DMOSpeech 2# TTS 框架5个月前02780
谷歌开源实时音乐生成模型 Magenta RealTime:8亿参数,支持文本/音频操控今天,Google DeepMind 宣布开源一款名为 Magenta RealTime 的实时音乐生成模型。该模型基于 Apache 2.0 许可证发布,具备实时交互能力,能够根据文本提示或音频示例...语音模型# Magenta RealTime# 音乐生成模型6个月前02780