SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    语音模型

    共 112 篇文章
    包括文本生成音频、音乐生成模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Mini-Omni-Reasoner:将推理能力引入大型语音模型,让语音模型“边说边思考”

    Mini-Omni-Reasoner:将推理能力引入大型语音模型,让语音模型“边说边思考”

    由南洋理工大学、新加坡国立大学、腾讯、北京工业大学与北京航空航天大学联合研发,Mini-Omni-Reasoner 正式推出——这是一次将推理能力引入大型语音模型(Large Speech Model...
    语音模型# Mini-Omni-Reasoner# 语音思考模型
    4个月前
    02500
    Kyutai Labs推出新一代流式TTS模型Kyutai TTS:实时语音生成迈入新阶段

    Kyutai Labs推出新一代流式TTS模型Kyutai TTS:实时语音生成迈入新阶段

    近日,Kyutai Labs 正式开源了一款名为 Kyutai TTS 的文本转语音(TTS)模型,参数规模达到16亿,支持实时、流式处理,成为该领域的技术新标杆。这一模型不仅具备出色的语音生成能力...
    语音模型# Kyutai Labs# Kyutai TTS# TTS模型
    7个月前
    02500
    Boson AI 发布 Higgs Audio V2:首个开源的多说话者情感语音生成模型

    Boson AI 发布 Higgs Audio V2:首个开源的多说话者情感语音生成模型

    Boson AI 正式推出 Higgs Audio Generation 版本2(Higgs Audio V2),这是Boson AI在音频生成领域的一次重要突破。该模型具备强大的多说话者对话生成能力...
    语音模型# Boson AI# Higgs Audio V2
    6个月前
    02450
    Zyphra开源支持高保真语音克隆的实时文本转语音(TTS)模型 Zonos-v0.1 测试版

    Zyphra开源支持高保真语音克隆的实时文本转语音(TTS)模型 Zonos-v0.1 测试版

    Zyphra 最近发布了 Zonos-v0.1 测试版,这是一款支持高保真语音克隆的实时文本转语音(TTS)模型。作为开源项目的一部分,Zonos-v0.1 包含两个强大的 TTS 模型:一个 16 ...
    语音模型# TTS模型# Zonos-v0.1
    12个月前
    02420
    Orpheus TTS:基于 Llama-3b 构建的先进文本转语音(TTS)模型

    Orpheus TTS:基于 Llama-3b 构建的先进文本转语音(TTS)模型

    Canopy Labs推出基于 Llama-3b 骨干网络构建的开源文本转语音(TTS)模型Orpheus TTS ,这款模型展示了利用大语言模型(LLM)进行高质量语音合成的能力。 模型规模与特性 ...
    语音模型# Llama-3b# Orpheus TTS# TTS
    11个月前
    02410
    小米自研声音理解大模型 MiDashengLM-7B 正式开源

    小米自研声音理解大模型 MiDashengLM-7B 正式开源

    小米正式发布并全量开源其自研声音理解大模型 —— MiDashengLM-7B。该模型在性能与效率上实现双重突破,标志着小米在多模态AI领域,尤其是声音理解方向的又一次重要进展。 GitHub 主页...
    语音模型# MiDashengLM-7B# 声音理解大模型# 小米
    6个月前
    02400
    Qwen3-TTS-Flash 发布:支持多音色、多语言与多方言的语音合成模型

    Qwen3-TTS-Flash 发布:支持多音色、多语言与多方言的语音合成模型

    通义实验室近日推出 Qwen3-TTS-Flash,一款面向多场景应用的高性能文本转语音(TTS)模型。该模型现已通过 Qwen API 开放访问,支持自然、流畅且富有表现力的语音生成。 API:ht...
    语音模型# Qwen3-TTS-Flash# 语音合成模型
    4个月前
    02340
    多模态语音交互的端到端大型语音模型 VITA-Audio

    多模态语音交互的端到端大型语音模型 VITA-Audio

    腾讯优图实验室、南京大学和厦门大学的研究人员推出用于高效多模态语音交互的端到端大型语音模型 VITA-Audio,VITA-Audio 的目标是通过快速生成音频和文本令牌,显著降低流式语音交互中的延迟...
    语音模型# VITA-Audio# 语音模型
    9个月前
    02290
    Stability AI发布可在智能手机运行的音频生成模型Stable Audio Open Small

    Stability AI发布可在智能手机运行的音频生成模型Stable Audio Open Small

    AI 初创公司 Stability AI 发布了 Stable Audio Open Small,这是一款专为移动设备设计的音频生成模型。据公司宣称,这是目前市场上最快的音频生成模型,并且效率高到可以...
    语音模型# Stability AI# Stable Audio Open Small
    9个月前
    02150
    阶跃星辰发布开源语音大模型Step-Audio 2 mini:多任务性能登顶SOTA,攻克语音AI“智商情商”痛点

    阶跃星辰发布开源语音大模型Step-Audio 2 mini:多任务性能登顶SOTA,攻克语音AI“智商情商”痛点

    今日,阶跃星辰正式发布开源端到端语音大模型Step-Audio 2 mini,该模型在音频理解、语音识别、翻译及对话等多个国际基准测试集中均斩获SOTA(state-of-the-art,当前最优)成...
    语音模型# Step-Audio 2 mini# 阶跃星辰
    5个月前
    02140
    小米发布 MiMo-Audio:基于亿级小时预训练的开源音频语言模型

    小米发布 MiMo-Audio:基于亿级小时预训练的开源音频语言模型

    小米近日正式推出 MiMo-Audio ——一个统一的生成式音频-语言模型,支持跨模态语音理解与生成任务。该模型通过超过一亿小时的大规模预训练,实现了强大的少样本学习能力,能够在无需微调的情况下,仅凭...
    语音模型# MiMo-Audio# 小米# 音频语言模型
    4个月前
    02080
    Kyutai发布首个开源实时语音模型MoshiVis,开启视觉与语音交互新时代

    Kyutai发布首个开源实时语音模型MoshiVis,开启视觉与语音交互新时代

    在AI领域,将实时语音交互与视觉内容相结合一直是一个极具挑战性的课题。传统系统通常依赖于多个独立组件来实现语音活动检测、语音识别、文本对话和文本转语音合成,这种分段式的方法不仅容易引入延迟,还难以捕捉...
    语音模型# MoshiVis# 语音模型
    10个月前
    02030
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    QoderWork

    新QoderWork

    阿里发布旗下首个桌面Agent工具QoderWork,用户无需任何复杂部署工作,输入一句话,QoderWork就能按需调用授权的本地应用,完成文件整理、数据处理、文档生成等任务。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单