语音模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

阿里通义实验室联合港科大 & 浙大推出 ThinkSound：首个支持视频到音频生成与编辑的统一框架

阿里巴巴通义实验室联合香港科技大学与浙江大学的研究团队提出了一种全新的多模态视频-音频生成与编辑框架 —— ThinkSound。项目主页：https://thinksound-project.gi...

语音模型 # ThinkSound # 多模态视频-音频生成

7个月前

01950

Magenta RealTime：一个可交互、可定制的开源实时音乐生成模型

当 AI 生成音乐从“预设播放”走向“实时演奏”，我们正在见证创作方式的一次深刻转变。传统的音乐生成模型通常以“批处理”模式运行：输入一段提示，等待几秒后输出完整音频。这种模式虽能产出完整作品，却缺...

语音模型 # Magenta RealTime # 实时音乐生成模型

6个月前

01900

中科院+腾讯提出AudioStory：LLM+TTA协同，破解长篇叙事音频“不连贯”痛点

文本到音频（TTA）技术已能生成高质量短音频片段，但面对“雨中追逐场景”“视频配音旁白”这类需要时间连贯性、情感一致性的长篇叙事需求时，传统模型常出现“声音断层”“氛围割裂”等问题。 GitHub：h...

语音模型 # AudioStory # TTA

5个月前

01810

新型多模态音频生成框架AudioX：通过统一的模型架构实现从各种输入模态（如文本、视频、图像、音频等）生成高质量的音频和音乐

香港科技大学的研究人员推出新型多模态音频生成框架“AudioX”，通过统一的模型架构实现从各种输入模态（如文本、视频、图像、音频等）生成高质量的音频和音乐。该框架通过创新的多模态掩码训练策略，强制模型...

语音模型 # AudioX # 多模态音频生成

8个月前

01750

KaniTTS 发布：一种高效且富有表现力的文本到语音模型

NineNineSix 团队近日推出 KaniTTS ——一个专为低延迟、高保真语音合成设计的开源文本到语音（TTS）系统。 GitHub：https://github.com/nineninesix...

语音模型 # KaniTTS

4个月前

01700

音频描述数据集FusionAudio-1.2M：通过多模态上下文融合来生成细粒度的音频描述

香港中文大学（深圳）和华南理工大学的研究人员推出推出一个名为FusionAudio-1.2M的音频描述数据集，通过多模态上下文融合来生成细粒度的音频描述。该数据集通过模拟人类听觉感知的方式，整合了多种...

语音模型 # FusionAudio-1.2M

8个月前

01680

Stable Audio 2.5 发布：Stability AI 推出首款企业级音效制作专用音频模型

Stability AI 正式推出 Stable Audio 2.5——这是业内首款专为企业级音效制作设计的音频生成模型。该模型聚焦企业在规模化定制高质量音频时的核心需求，通过技术升级与生态合作，助力...

语音模型 # Stability AI # Stable Audio 2.5

5个月前

01650

ElevenLabs 发布音效生成模型SFX v2：音效生成更真实，支持无缝循环

ElevenLabs 今天推出了其音效生成模型 SFX v2，在音质、功能和使用体验上实现多项重要升级。现在，用户只需输入一段文字提示，即可生成高质量、可循环的环境音效，适用于有声书、播客、视频、冥想...

语音模型 # ElevenLabs # SFX v2 # 音效生成模型

5个月前

01640

FireRedTTS-2：面向长对话场景的流式多说话人语音合成系统

在播客制作、智能客服和实时对话系统中，自然流畅的多说话人语音合成是一项关键能力。然而，当前主流的对话式TTS（Text-to-Speech）技术普遍存在几个核心问题：需要预先提供完整对话文本，无法支...

语音模型 # FireRedTTS-2 # 小红书

5个月前

01600

Mistral 推出首个面向企业的开源语音理解模型 Voxtral：具备高精度的语音转录能力，还支持对音频内容的深度语义理解，如问答、摘要、翻译和功能调用

随着语音逐渐成为人机交互的核心方式，法国AI初创公司 Mistral 正式发布其首个开源音频模型 Voxtral，标志着其在语音智能领域的重大突破。 Voxtral 是一款面向企业的语音理解模型（Sp...

语音模型 # Mistral # Voxtral # 语音理解模型

7个月前

01600

Liquid AI 发布 LFM2-Audio：一个轻量级、端到端的音频-文本基础模型

Liquid AI 正式推出 LFM2-Audio-1.5B ——一款专为实时交互设计的端到端多模态基础模型，支持音频与文本的任意输入输出组合。 GitHub：https://github.com/L...

语音模型 # LFM2-Audio # Liquid AI

4个月前

01570

香港中文大学（深圳）提出语音到语音大语言模型EchoX：用“回声训练”弥合语音生成中的语义鸿沟

近年来，语音到语音大语言模型（Speech-to-Speech LLMs, SLLMs）成为多模态 AI 的重要方向——用户说一句话，模型直接以语音回应，无需经过“语音→文本→语音”的中间转换。但这...

语音模型 # EchoX # 语音到语音大语言模型

5个月前

01510

加载更多

阿里通义实验室联合港科大 & 浙大推出 ThinkSound：首个支持视频到音频生成与编辑的统一框架

Magenta RealTime：一个可交互、可定制的开源实时音乐生成模型

中科院+腾讯提出AudioStory：LLM+TTA协同，破解长篇叙事音频“不连贯”痛点

新型多模态音频生成框架AudioX：通过统一的模型架构实现从各种输入模态（如文本、视频、图像、音频等）生成高质量的音频和音乐

KaniTTS 发布：一种高效且富有表现力的文本到语音模型

音频描述数据集FusionAudio-1.2M：通过多模态上下文融合来生成细粒度的音频描述

Stable Audio 2.5 发布：Stability AI 推出首款企业级音效制作专用音频模型

ElevenLabs 发布音效生成模型SFX v2：音效生成更真实，支持无缝循环

FireRedTTS-2：面向长对话场景的流式多说话人语音合成系统

Mistral 推出首个面向企业的开源语音理解模型 Voxtral：具备高精度的语音转录能力，还支持对音频内容的深度语义理解，如问答、摘要、翻译和功能调用

Liquid AI 发布 LFM2-Audio：一个轻量级、端到端的音频-文本基础模型

香港中文大学（深圳）提出语音到语音大语言模型EchoX：用“回声训练”弥合语音生成中的语义鸿沟

新QoderWork

Clawdbot/Moltbot

Situation Monitor

Higgsfield AI

CutCut

ITELLOU

语音模型

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

Higgsfield AI

CutCut

ITELLOU