语音模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

KaniTTS 发布：一种高效且富有表现力的文本到语音模型

NineNineSix 团队近日推出 KaniTTS ——一个专为低延迟、高保真语音合成设计的开源文本到语音（TTS）系统。 GitHub：https://github.com/nineninesix...

语音模型 # KaniTTS

4个月前

01700

Liquid AI 发布 LFM2-Audio：一个轻量级、端到端的音频-文本基础模型

Liquid AI 正式推出 LFM2-Audio-1.5B ——一款专为实时交互设计的端到端多模态基础模型，支持音频与文本的任意输入输出组合。 GitHub：https://github.com/L...

语音模型 # LFM2-Audio # Liquid AI

4个月前

01570

Hume AI 发布 Octave 2：更智能、多语言、低延迟的语音合成系统

Hume AI 正式推出 Octave 2 ——其下一代文本到语音（TTS）模型的重大升级版本。作为“语音语言模型”（Speech Language Model, SLM）架构的延续，Octave 2...

语音模型 # EVI 4 mini # Hume AI # Octave 2

4个月前

0890

阿里发布Qwen3-LiveTranslate-Flash ：全球首个视、听、说全模态实时同传大模型

阿里通义实验室今日推出 Qwen3-LiveTranslate-Flash——一款基于 Qwen3-Omni 基座模型打造的多语言实时音视频同声传译大模型。 Demo：https://huggingf...

语音模型 # Qwen3-LiveTranslate-Flash # 实时同传大模型

4个月前

06840

SongPrep：腾讯提出自动化歌曲预处理方案，破解AIGC歌曲生成的数据难题

在AIGC的众多分支中，歌曲生成因兼具“音乐旋律”“歌词文本”“结构韵律”的多维度创作需求，一直是技术难点。尽管互联网上有海量歌曲资源，但要将这些原始音频转化为可训练AIGC模型的“结构化数据”，传统...

语音模型 # SongPrep # 腾讯 # 音乐模型

4个月前

01090

Qwen3-TTS-Flash 发布：支持多音色、多语言与多方言的语音合成模型

通义实验室近日推出 Qwen3-TTS-Flash，一款面向多场景应用的高性能文本转语音（TTS）模型。该模型现已通过 Qwen API 开放访问，支持自然、流畅且富有表现力的语音生成。 API：ht...

语音模型 # Qwen3-TTS-Flash # 语音合成模型

4个月前

02340

Mini-Omni-Reasoner：将推理能力引入大型语音模型，让语音模型“边说边思考”

由南洋理工大学、新加坡国立大学、腾讯、北京工业大学与北京航空航天大学联合研发，Mini-Omni-Reasoner 正式推出——这是一次将推理能力引入大型语音模型（Large Speech Model...

语音模型 # Mini-Omni-Reasoner # 语音思考模型

4个月前

02500

小米发布 MiMo-Audio：基于亿级小时预训练的开源音频语言模型

小米近日正式推出 MiMo-Audio ——一个统一的生成式音频-语言模型，支持跨模态语音理解与生成任务。该模型通过超过一亿小时的大规模预训练，实现了强大的少样本学习能力，能够在无需微调的情况下，仅凭...

语音模型 # MiMo-Audio # 小米 # 音频语言模型

4个月前

02080

FireRedTTS-2：面向长对话场景的流式多说话人语音合成系统

在播客制作、智能客服和实时对话系统中，自然流畅的多说话人语音合成是一项关键能力。然而，当前主流的对话式TTS（Text-to-Speech）技术普遍存在几个核心问题：需要预先提供完整对话文本，无法支...

语音模型 # FireRedTTS-2 # 小红书

5个月前

01600

面壁智能发布VoxCPM：无需分词器的TTS，用于上下文感知的语音生成和真实感声音克隆

在语音合成领域，大多数主流 TTS（Text-to-Speech）模型依赖于将语音信号离散化为“音素”或“语音标记”——这一过程虽然便于建模，但也带来了固有局限：声音细节丢失、韵律不自然、跨说话人迁...

语音模型 # TTS # VoxCPM # 面壁智能

5个月前

04240

香港中文大学（深圳）提出语音到语音大语言模型EchoX：用“回声训练”弥合语音生成中的语义鸿沟

近年来，语音到语音大语言模型（Speech-to-Speech LLMs, SLLMs）成为多模态 AI 的重要方向——用户说一句话，模型直接以语音回应，无需经过“语音→文本→语音”的中间转换。但这...

语音模型 # EchoX # 语音到语音大语言模型

5个月前

01510

Stable Audio 2.5 发布：Stability AI 推出首款企业级音效制作专用音频模型

Stability AI 正式推出 Stable Audio 2.5——这是业内首款专为企业级音效制作设计的音频生成模型。该模型聚焦企业在规模化定制高质量音频时的核心需求，通过技术升级与生态合作，助力...

语音模型 # Stability AI # Stable Audio 2.5

5个月前

01650

加载更多

KaniTTS 发布：一种高效且富有表现力的文本到语音模型

Liquid AI 发布 LFM2-Audio：一个轻量级、端到端的音频-文本基础模型

Hume AI 发布 Octave 2：更智能、多语言、低延迟的语音合成系统

阿里发布Qwen3-LiveTranslate-Flash ：全球首个视、听、说全模态实时同传大模型

SongPrep：腾讯提出自动化歌曲预处理方案，破解AIGC歌曲生成的数据难题

Qwen3-TTS-Flash 发布：支持多音色、多语言与多方言的语音合成模型

Mini-Omni-Reasoner：将推理能力引入大型语音模型，让语音模型“边说边思考”

小米发布 MiMo-Audio：基于亿级小时预训练的开源音频语言模型

FireRedTTS-2：面向长对话场景的流式多说话人语音合成系统

面壁智能发布VoxCPM：无需分词器的TTS，用于上下文感知的语音生成和真实感声音克隆

香港中文大学（深圳）提出语音到语音大语言模型EchoX：用“回声训练”弥合语音生成中的语义鸿沟

Stable Audio 2.5 发布：Stability AI 推出首款企业级音效制作专用音频模型

Clawdbot/Moltbot

Skills.sh

Situation Monitor

CutCut

Fogsight (雾象)

新Awesome Clawdbot(Moltbot) Skills

语音模型

网址

Clawdbot/Moltbot

Skills.sh

Situation Monitor

CutCut

Fogsight (雾象)

新Awesome Clawdbot(Moltbot) Skills