语音模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

英伟达开源多语言语音识别和翻译模型：Canary 1B Flash 和 Canary 180M Flash

在促进全球交流的进程中，多语言语音识别和翻译技术扮演着至关重要的角色。然而，开发能够实时准确地转录和翻译多种语言的模型面临着诸如处理语言细微差别、确保高准确性与低延迟以及实现跨设备高效部署等挑战。为应...

9个月前

04490

符号音乐生成模型NotaGen：通过借鉴大语言模型（LLM）的训练范式来生成高质量的古典乐谱

中央音乐学院、美国罗切斯特大学、北京飞天云动科技、北京航空航天大学和清华大学的研究人员推出符号音乐生成模型NotaGen，通过借鉴大语言模型（LLM）的训练范式来生成高质量的古典乐谱。其在超过 160...

语音模型 # NotaGen # 古典音乐生成模型

9个月前

04640

Orpheus TTS：基于 Llama-3b 构建的先进文本转语音（TTS）模型

Canopy Labs推出基于 Llama-3b 骨干网络构建的开源文本转语音（TTS）模型Orpheus TTS ，这款模型展示了利用大语言模型（LLM）进行高质量语音合成的能力。模型规模与特性 ...

语音模型 # Llama-3b # Orpheus TTS # TTS

9个月前

02370

香港科技大学推出统一DiT架构模型AudioX：通过多模态输入（如文本、视频、图像、音乐和音频）生成高质量的音频和音乐

香港科技大学的研究人员推出统一DiT架构模型AudioX，通过多模态输入（如文本、视频、图像、音乐和音频）生成高质量的音频和音乐。AudioX通过创新的多模态掩码训练策略，强制模型从掩码输入中学习，从...

语音模型 # AI音乐 # AudioX # DiT模型

9个月前

03700

小米推出音频推理模型R1-AQA：强化学习助力机器“听懂”声音背后的逻辑

在大模型时代，人们对机器的期望已经不再局限于简单的语音识别或声音分类，而是希望机器能够具备复杂的推理能力。例如，通过汽车座舱的录音判断车辆是否存在潜在故障，从交响乐中推测作曲家的情绪，或者在地铁站的嘈...

语音模型 # R1-AQA # 小米 # 音频推理模型

9个月前

04750

SparkAudio推出Spark-TTS：基于大语言模型的高效文本到语音系统

香港科技大学、SparkAudio开源社区、上海出门问问信息技术有限公司、上海交通大学、南洋理工大学、西北工业大学和网易伏羲人工智能实验室的研究人员推出Spark-TTS，这是一个基于大语言模型（LL...

语音模型 # Spark-TTS # SparkAudio # 文本到语音

9个月前

02960

Sesame 团队推出新一代语音技术 CSM：让语音助手更像真人

Sesame 团队近期发布了一项名为 Conversational Speech Model (CSM) 的全新语音技术，旨在解决当前语音助手普遍存在的“死板”问题。这项技术的目标是让语音助手不仅能够...

语音模型 # CSM # 语音技术

9个月前

02890

Hume AI推出了首个理解其所说内容的文本转语音系统Octave

Hume 推出了 Octave（全能文本和语音引擎），这是首个专为文本转语音设计的大语言模型（LLM）。与传统文本转语音（TTS）系统不同，Octave 不仅能够“朗读”文字，还能真正理解单词在上下文...

语音模型 # Hume AI # Octave # TTS

10个月前

02650

ElevenLabs 推出语音转文本模型 Scribe，多语言支持与高精度

ElevenLabs 是一家专注于人工智能音频生成的初创公司，最近筹集了 1.8 亿美元的资金，估值达到 33 亿美元。以其高质量的声音合成技术而闻名，该公司现在正通过推出其首个独立的语音转文本模型 ...

语音模型 # ElevenLabs # Scribe # 语音识别

10个月前

02900

西北工业大学开源语音理解模型OSUM

近年来，大语言模型（LLMs）在自然语言处理领域取得了显著进展，这启发了业界对语音理解语言模型（Speech Understanding Language Models, SULMs）的开发。SULM...

语音模型 # OSUM # 西北工业大学 # 语音理解模型

10个月前

03630

阶跃星辰开源面向智能语音交互的框架Step-Audio：1300 亿参数的统一语音-文本多模态模型，能够实现语音理解与生成的统一

阶跃星辰团队开源了面向智能语音交互的框架 Step-Audio，旨在解决当前开源语音模型在数据收集成本高、动态控制能力弱和智能水平有限等问题。Step-Audio 提出了一个 1300 亿参数的统一语...

语音模型 # Step-Audio # 语音-文本多模态模型 # 语音交互

10个月前

03350

Zyphra开源支持高保真语音克隆的实时文本转语音（TTS）模型 Zonos-v0.1 测试版

Zyphra 最近发布了 Zonos-v0.1 测试版，这是一款支持高保真语音克隆的实时文本转语音（TTS）模型。作为开源项目的一部分，Zonos-v0.1 包含两个强大的 TTS 模型：一个 16 ...

语音模型 # TTS模型 # Zonos-v0.1

10个月前

02390

加载更多

英伟达开源多语言语音识别和翻译模型：Canary 1B Flash 和 Canary 180M Flash

符号音乐生成模型NotaGen：通过借鉴大语言模型（LLM）的训练范式来生成高质量的古典乐谱

Orpheus TTS：基于 Llama-3b 构建的先进文本转语音（TTS）模型

香港科技大学推出统一DiT架构模型AudioX：通过多模态输入（如文本、视频、图像、音乐和音频）生成高质量的音频和音乐

小米推出音频推理模型R1-AQA：强化学习助力机器“听懂”声音背后的逻辑

SparkAudio推出Spark-TTS：基于大语言模型的高效文本到语音系统

Sesame 团队推出新一代语音技术 CSM：让语音助手更像真人

Hume AI推出了首个理解其所说内容的文本转语音系统Octave

ElevenLabs 推出语音转文本模型 Scribe，多语言支持与高精度

西北工业大学开源语音理解模型OSUM

阶跃星辰开源面向智能语音交互的框架Step-Audio：1300 亿参数的统一语音-文本多模态模型，能够实现语音理解与生成的统一

Zyphra开源支持高保真语音克隆的实时文本转语音（TTS）模型 Zonos-v0.1 测试版

朱雀大模型检测

Fogsight (雾象)

秒哒

Tripo

OiiOii AI

ITELLOU

语音模型

网址

朱雀大模型检测

Fogsight (雾象)

秒哒

Tripo

OiiOii AI

ITELLOU