SparkAudio推出Spark-TTS:基于大语言模型的高效文本到语音系统 香港科技大学、SparkAudio开源社区、上海出门问问信息技术有限公司、上海交通大学、南洋理工大学、西北工业大学和网易伏羲人工智能实验室的研究人员推出Spark-TTS,这是一个基于大语言模型(LL... 语音模型# Spark-TTS# SparkAudio# 文本到语音 5天前0300
Sesame 团队推出新一代语音技术 CSM:让语音助手更像真人 Sesame 团队近期发布了一项名为 Conversational Speech Model (CSM) 的全新语音技术,旨在解决当前语音助手普遍存在的“死板”问题。这项技术的目标是让语音助手不仅能够... 语音模型# CSM# 语音技术 1天前0300
Hume AI推出了首个理解其所说内容的文本转语音系统Octave Hume 推出了 Octave(全能文本和语音引擎),这是首个专为文本转语音设计的大语言模型(LLM)。与传统文本转语音(TTS)系统不同,Octave 不仅能够“朗读”文字,还能真正理解单词在上下文... 语音模型# Hume AI# Octave# TTS 2周前0380
ElevenLabs 推出语音转文本模型 Scribe,多语言支持与高精度 ElevenLabs 是一家专注于人工智能音频生成的初创公司,最近筹集了 1.8 亿美元的资金,估值达到 33 亿美元。以其高质量的声音合成技术而闻名,该公司现在正通过推出其首个独立的语音转文本模型 ... 语音模型# ElevenLabs# Scribe# 语音识别 3周前0630
西北工业大学开源语音理解模型OSUM 近年来,大语言模型(LLMs)在自然语言处理领域取得了显著进展,这启发了业界对语音理解语言模型(Speech Understanding Language Models, SULMs)的开发。SULM... 语音模型# OSUM# 西北工业大学# 语音理解模型 4周前0350
阶跃星辰开源面向智能语音交互的框架Step-Audio:1300 亿参数的统一语音-文本多模态模型,能够实现语音理解与生成的统一 阶跃星辰团队开源了面向智能语音交互的框架 Step-Audio,旨在解决当前开源语音模型在数据收集成本高、动态控制能力弱和智能水平有限等问题。Step-Audio 提出了一个 1300 亿参数的统一语... 语音模型# Step-Audio# 语音-文本多模态模型# 语音交互 4周前01370
Zyphra开源支持高保真语音克隆的实时文本转语音(TTS)模型 Zonos-v0.1 测试版 Zyphra 最近发布了 Zonos-v0.1 测试版,这是一款支持高保真语音克隆的实时文本转语音(TTS)模型。作为开源项目的一部分,Zonos-v0.1 包含两个强大的 TTS 模型:一个 16 ... 语音模型# TTS模型# Zonos-v0.1 1个月前0460
香港科技大学推出歌词生成音乐模型YuE 香港科技大学的研究团队近期在探索从给定歌词生成完整歌曲音频的领域取得了重要进展,这一过程被称为“歌词到歌曲”(lyrics2song)。尽管基于文本条件的音乐生成模型在创作非人声音乐短片段方面已经展现... 语音模型# AI音乐# YuE 1个月前0780
Llasa:基于LLaMA语言模型的先进文本转语音(TTS)系统 文本转语音(TTS)技术正成为人机交互领域的重要工具。随着娱乐、无障碍服务、客户服务和教育等行业对语音合成的需求不断增加,市场对逼真、情感丰富且支持多种语言的语音合成技术的需求也在迅速增长。然而,传统... 语音模型# Llasa# TTS 1个月前01850
文本转语音模型Kokoro-82M:8200万参数,支持多语言和多声音选项 Kokoro是一款先进的文本转语音(TTS)模型,以其精简的参数量和卓越的性能在众多竞争对手中脱颖而出。拥有8200万参数的Kokoro,其模型大小不超过300M,却能生成高质量的音频输出。特别值得一... 语音模型# Kokoro-82M# TTS 1个月前03430
开源多模态视频语音大模型VITA-1.5: 基于Qwen2.5模型,实现接近实时的视觉和语音交互能力 随着多模态大语言模型(MLLMs)的发展,如何有效地整合视觉、语言和语音成为了人工智能领域面临的一个重要挑战。VITA-1.5 是由南京大学(NJU)、腾讯优图实验室(Tencent Youtu La... 语音模型# Qwen2.5模型# VITA-1.5 1个月前01200
端到端唇音同步框架LatentSync:可以分析新的音频信号,并生成与音频同步的口型 字节跳动与北京交通大学的研究团队共同提出了一种名为LatentSync的新方法,旨在解决唇音同步的问题。这一框架利用了Stable Diffusion的强大能力,通过一个端到端的流程直接建模复杂的音视... 语音模型# LatentSync# 唇音同步 1个月前01730