语音模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

阿里通义实验室发布 Qwen3-ASR-Flash：支持多语种、歌声识别与上下文定制的新一代语音识别服务

阿里通义实验室近日正式推出 Qwen3-ASR-Flash，一款基于 Qwen3 大模型基座构建的高性能语音识别（ASR）服务。该服务融合千万小时级语音数据与海量多模态训练样本，致力于在准确率、鲁棒...

语音模型 # Qwen3-ASR-Flash

5个月前

0960

ElevenLabs 发布音效生成模型SFX v2：音效生成更真实，支持无缝循环

ElevenLabs 今天推出了其音效生成模型 SFX v2，在音质、功能和使用体验上实现多项重要升级。现在，用户只需输入一段文字提示，即可生成高质量、可循环的环境音效，适用于有声书、播客、视频、冥想...

语音模型 # ElevenLabs # SFX v2 # 音效生成模型

5个月前

01640

艾伦AI研究所推出全新开源 ASR 模型家族OLMoASR

在自动语音识别（ASR）领域，Whisper 一直是开源社区的标杆——强大、鲁棒、支持零样本迁移。但它有一个根本局限：训练数据未公开，模型行为难以分析，也无法完全复现。现在，艾伦人工智能研究所（AI...

语音模型 # OLMoASR # 艾伦AI研究所

5个月前

01140

阶跃星辰发布开源语音大模型Step-Audio 2 mini：多任务性能登顶SOTA，攻克语音AI“智商情商”痛点

今日，阶跃星辰正式发布开源端到端语音大模型Step-Audio 2 mini，该模型在音频理解、语音识别、翻译及对话等多个国际基准测试集中均斩获SOTA（state-of-the-art，当前最优）成...

语音模型 # Step-Audio 2 mini # 阶跃星辰

5个月前

02130

中科院+腾讯提出AudioStory：LLM+TTA协同，破解长篇叙事音频“不连贯”痛点

文本到音频（TTA）技术已能生成高质量短音频片段，但面对“雨中追逐场景”“视频配音旁白”这类需要时间连贯性、情感一致性的长篇叙事需求时，传统模型常出现“声音断层”“氛围割裂”等问题。 GitHub：h...

语音模型 # AudioStory # TTA

5个月前

01810

VibeVoice-1.5B：微软开源TTS框架，可生成4人60分钟长对话音频

微软近期开源了一款全新文本到语音（TTS）框架——VibeVoice-1.5B，其核心突破在于打破传统TTS系统的局限：能同时生成包含4个不同说话者、最长60分钟的连贯对话音频，且在长序列处理效率、说...

语音模型 # TTS # VibeVoice-1.5B # 微软

5个月前

04470

Magenta RealTime：一个可交互、可定制的开源实时音乐生成模型

当 AI 生成音乐从“预设播放”走向“实时演奏”，我们正在见证创作方式的一次深刻转变。传统的音乐生成模型通常以“批处理”模式运行：输入一段提示，等待几秒后输出完整音频。这种模式虽能产出完整作品，却缺...

语音模型 # Magenta RealTime # 实时音乐生成模型

6个月前

01900

KittenML推出一个仅 25MB 的开源文本转语音模型Kitten TTS

KittenML推出一款名为 Kitten TTS 的新型文本转语音（TTS）模型，它以极小体积、无需 GPU 和高质量语音合成能力为特点，专为边缘设备和轻量级部署场景设计。 GitHub：https...

语音模型 # Kitten TTS # 文本转语音模型

6个月前

05760

小米自研声音理解大模型 MiDashengLM-7B 正式开源

小米正式发布并全量开源其自研声音理解大模型 —— MiDashengLM-7B。该模型在性能与效率上实现双重突破，标志着小米在多模态AI领域，尤其是声音理解方向的又一次重要进展。 GitHub 主页...

语音模型 # MiDashengLM-7B # 声音理解大模型 # 小米

6个月前

02400

新型歌曲生成模型JAM：让歌词精准变成完整歌曲

你有没有想过，输入一段歌词，再标上每个词该在什么时候唱，就能自动生成一首旋律自然、节奏准确、风格统一的完整歌曲？这不是未来设想，而是已经实现的技术突破。新加坡科技设计大学（SUTD）与 Lambd...

语音模型 # JAM # 歌曲生成模型

6个月前

01250

Boson AI 发布 Higgs Audio V2：首个开源的多说话者情感语音生成模型

Boson AI 正式推出 Higgs Audio Generation 版本2（Higgs Audio V2），这是Boson AI在音频生成领域的一次重要突破。该模型具备强大的多说话者对话生成能力...

语音模型 # Boson AI # Higgs Audio V2

6个月前

02430

字节跳动发布 Seed LiveInterpret 2.0：首个中英同传延迟与准确率接近人类水平的端到端语音翻译系统

在跨语言实时沟通的长期挑战中，机器能否真正替代人类同声传译？字节跳动 Seed 团队给出了迄今为止最接近“是”的答案。今日，字节跳动正式发布 Seed LiveInterpret 2.0 —— 一款...

语音模型 # Seed LiveInterpret 2.0 # 同声传译模型 # 字节跳动

6个月前

03040

加载更多

阿里通义实验室发布 Qwen3-ASR-Flash：支持多语种、歌声识别与上下文定制的新一代语音识别服务

ElevenLabs 发布音效生成模型SFX v2：音效生成更真实，支持无缝循环

艾伦AI研究所推出全新开源 ASR 模型家族OLMoASR

阶跃星辰发布开源语音大模型Step-Audio 2 mini：多任务性能登顶SOTA，攻克语音AI“智商情商”痛点

中科院+腾讯提出AudioStory：LLM+TTA协同，破解长篇叙事音频“不连贯”痛点

VibeVoice-1.5B：微软开源TTS框架，可生成4人60分钟长对话音频

Magenta RealTime：一个可交互、可定制的开源实时音乐生成模型

KittenML推出一个仅 25MB 的开源文本转语音模型Kitten TTS

小米自研声音理解大模型 MiDashengLM-7B 正式开源

新型歌曲生成模型JAM：让歌词精准变成完整歌曲

Boson AI 发布 Higgs Audio V2：首个开源的多说话者情感语音生成模型

字节跳动发布 Seed LiveInterpret 2.0：首个中英同传延迟与准确率接近人类水平的端到端语音翻译系统

Clawdbot/Moltbot

Higgsfield AI

Situation Monitor

Fogsight (雾象)

CivitAI

打滑作业平台

语音模型

网址

Clawdbot/Moltbot

Higgsfield AI

Situation Monitor

Fogsight (雾象)

CivitAI

打滑作业平台