Orpheus TTS:基于 Llama-3b 构建的先进文本转语音(TTS)模型Canopy Labs推出基于 Llama-3b 骨干网络构建的开源文本转语音(TTS)模型Orpheus TTS ,这款模型展示了利用大语言模型(LLM)进行高质量语音合成的能力。 模型规模与特性 ...语音模型# Llama-3b# Orpheus TTS# TTS9个月前02360
香港科技大学推出统一DiT架构模型AudioX:通过多模态输入(如文本、视频、图像、音乐和音频)生成高质量的音频和音乐香港科技大学的研究人员推出统一DiT架构模型AudioX,通过多模态输入(如文本、视频、图像、音乐和音频)生成高质量的音频和音乐。AudioX通过创新的多模态掩码训练策略,强制模型从掩码输入中学习,从...语音模型# AI音乐# AudioX# DiT模型9个月前03480
小米推出音频推理模型R1-AQA:强化学习助力机器“听懂”声音背后的逻辑在大模型时代,人们对机器的期望已经不再局限于简单的语音识别或声音分类,而是希望机器能够具备复杂的推理能力。例如,通过汽车座舱的录音判断车辆是否存在潜在故障,从交响乐中推测作曲家的情绪,或者在地铁站的嘈...语音模型# R1-AQA# 小米# 音频推理模型9个月前04710
SparkAudio推出Spark-TTS:基于大语言模型的高效文本到语音系统香港科技大学、SparkAudio开源社区、上海出门问问信息技术有限公司、上海交通大学、南洋理工大学、西北工业大学和网易伏羲人工智能实验室的研究人员推出Spark-TTS,这是一个基于大语言模型(LL...语音模型# Spark-TTS# SparkAudio# 文本到语音9个月前02950
Sesame 团队推出新一代语音技术 CSM:让语音助手更像真人Sesame 团队近期发布了一项名为 Conversational Speech Model (CSM) 的全新语音技术,旨在解决当前语音助手普遍存在的“死板”问题。这项技术的目标是让语音助手不仅能够...语音模型# CSM# 语音技术9个月前02820
Hume AI推出了首个理解其所说内容的文本转语音系统OctaveHume 推出了 Octave(全能文本和语音引擎),这是首个专为文本转语音设计的大语言模型(LLM)。与传统文本转语音(TTS)系统不同,Octave 不仅能够“朗读”文字,还能真正理解单词在上下文...语音模型# Hume AI# Octave# TTS9个月前02640
ElevenLabs 推出语音转文本模型 Scribe,多语言支持与高精度ElevenLabs 是一家专注于人工智能音频生成的初创公司,最近筹集了 1.8 亿美元的资金,估值达到 33 亿美元。以其高质量的声音合成技术而闻名,该公司现在正通过推出其首个独立的语音转文本模型 ...语音模型# ElevenLabs# Scribe# 语音识别10个月前02900
西北工业大学开源语音理解模型OSUM近年来,大语言模型(LLMs)在自然语言处理领域取得了显著进展,这启发了业界对语音理解语言模型(Speech Understanding Language Models, SULMs)的开发。SULM...语音模型# OSUM# 西北工业大学# 语音理解模型10个月前03590
阶跃星辰开源面向智能语音交互的框架Step-Audio:1300 亿参数的统一语音-文本多模态模型,能够实现语音理解与生成的统一阶跃星辰团队开源了面向智能语音交互的框架 Step-Audio,旨在解决当前开源语音模型在数据收集成本高、动态控制能力弱和智能水平有限等问题。Step-Audio 提出了一个 1300 亿参数的统一语...语音模型# Step-Audio# 语音-文本多模态模型# 语音交互10个月前03340
Zyphra开源支持高保真语音克隆的实时文本转语音(TTS)模型 Zonos-v0.1 测试版Zyphra 最近发布了 Zonos-v0.1 测试版,这是一款支持高保真语音克隆的实时文本转语音(TTS)模型。作为开源项目的一部分,Zonos-v0.1 包含两个强大的 TTS 模型:一个 16 ...语音模型# TTS模型# Zonos-v0.110个月前02380
香港科技大学推出歌词生成音乐模型YuE香港科技大学的研究团队近期在探索从给定歌词生成完整歌曲音频的领域取得了重要进展,这一过程被称为“歌词到歌曲”(lyrics2song)。尽管基于文本条件的音乐生成模型在创作非人声音乐短片段方面已经展现...语音模型# AI音乐# YuE10个月前02650
Llasa:基于LLaMA语言模型的先进文本转语音(TTS)系统文本转语音(TTS)技术正成为人机交互领域的重要工具。随着娱乐、无障碍服务、客户服务和教育等行业对语音合成的需求不断增加,市场对逼真、情感丰富且支持多种语言的语音合成技术的需求也在迅速增长。然而,传统...语音模型# Llasa# TTS10个月前06170