SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    语音模型

    共 139 篇文章
    包括文本生成音频、音乐生成模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    面壁智能发布VoxCPM:无需分词器的TTS,用于上下文感知的语音生成和真实感声音克隆

    面壁智能发布VoxCPM:无需分词器的TTS,用于上下文感知的语音生成和真实感声音克隆

    在语音合成领域,大多数主流 TTS(Text-to-Speech)模型依赖于将语音信号离散化为“音素”或“语音标记”——这一过程虽然便于建模,但也带来了固有局限: 声音细节丢失、韵律不自然、跨说话人迁...
    语音模型# TTS# VoxCPM# 面壁智能
    7个月前
    05220
    香港中文大学(深圳)提出语音到语音大语言模型EchoX:用“回声训练”弥合语音生成中的语义鸿沟

    香港中文大学(深圳)提出语音到语音大语言模型EchoX:用“回声训练”弥合语音生成中的语义鸿沟

    近年来,语音到语音大语言模型(Speech-to-Speech LLMs, SLLMs)成为多模态 AI 的重要方向——用户说一句话,模型直接以语音回应,无需经过“语音→文本→语音”的中间转换。 但这...
    语音模型# EchoX# 语音到语音大语言模型
    7个月前
    01780
    Stable Audio 2.5 发布:Stability AI 推出首款企业级音效制作专用音频模型

    Stable Audio 2.5 发布:Stability AI 推出首款企业级音效制作专用音频模型

    Stability AI 正式推出 Stable Audio 2.5——这是业内首款专为企业级音效制作设计的音频生成模型。该模型聚焦企业在规模化定制高质量音频时的核心需求,通过技术升级与生态合作,助力...
    语音模型# Stability AI# Stable Audio 2.5
    7个月前
    01950
    阿里通义实验室发布 Qwen3-ASR-Flash:支持多语种、歌声识别与上下文定制的新一代语音识别服务

    阿里通义实验室发布 Qwen3-ASR-Flash:支持多语种、歌声识别与上下文定制的新一代语音识别服务

    阿里通义实验室近日正式推出 Qwen3-ASR-Flash,一款基于 Qwen3 大模型基座 构建的高性能语音识别(ASR)服务。该服务融合千万小时级语音数据与海量多模态训练样本,致力于在准确率、鲁棒...
    语音模型# Qwen3-ASR-Flash
    7个月前
    01170
    ElevenLabs 发布音效生成模型SFX v2:音效生成更真实,支持无缝循环

    ElevenLabs 发布音效生成模型SFX v2:音效生成更真实,支持无缝循环

    ElevenLabs 今天推出了其音效生成模型 SFX v2,在音质、功能和使用体验上实现多项重要升级。现在,用户只需输入一段文字提示,即可生成高质量、可循环的环境音效,适用于有声书、播客、视频、冥想...
    语音模型# ElevenLabs# SFX v2# 音效生成模型
    7个月前
    02020
    艾伦AI研究所推出全新开源 ASR 模型家族OLMoASR

    艾伦AI研究所推出全新开源 ASR 模型家族OLMoASR

    在自动语音识别(ASR)领域,Whisper 一直是开源社区的标杆——强大、鲁棒、支持零样本迁移。但它有一个根本局限:训练数据未公开,模型行为难以分析,也无法完全复现。 现在,艾伦人工智能研究所(AI...
    语音模型# OLMoASR# 艾伦AI研究所
    7个月前
    01430
    阶跃星辰发布开源语音大模型Step-Audio 2 mini:多任务性能登顶SOTA,攻克语音AI“智商情商”痛点

    阶跃星辰发布开源语音大模型Step-Audio 2 mini:多任务性能登顶SOTA,攻克语音AI“智商情商”痛点

    今日,阶跃星辰正式发布开源端到端语音大模型Step-Audio 2 mini,该模型在音频理解、语音识别、翻译及对话等多个国际基准测试集中均斩获SOTA(state-of-the-art,当前最优)成...
    语音模型# Step-Audio 2 mini# 阶跃星辰
    7个月前
    02600
    中科院+腾讯提出AudioStory:LLM+TTA协同,破解长篇叙事音频“不连贯”痛点

    中科院+腾讯提出AudioStory:LLM+TTA协同,破解长篇叙事音频“不连贯”痛点

    文本到音频(TTA)技术已能生成高质量短音频片段,但面对“雨中追逐场景”“视频配音旁白”这类需要时间连贯性、情感一致性的长篇叙事需求时,传统模型常出现“声音断层”“氛围割裂”等问题。 GitHub:h...
    语音模型# AudioStory# TTA
    7个月前
    02000
    VibeVoice-1.5B:微软开源TTS框架,可生成4人60分钟长对话音频

    VibeVoice-1.5B:微软开源TTS框架,可生成4人60分钟长对话音频

    微软近期开源了一款全新文本到语音(TTS)框架——VibeVoice-1.5B,其核心突破在于打破传统TTS系统的局限:能同时生成包含4个不同说话者、最长60分钟的连贯对话音频,且在长序列处理效率、说...
    语音模型# TTS# VibeVoice-1.5B# 微软
    8个月前
    05360
    Magenta RealTime:一个可交互、可定制的开源实时音乐生成模型

    Magenta RealTime:一个可交互、可定制的开源实时音乐生成模型

    当 AI 生成音乐从“预设播放”走向“实时演奏”,我们正在见证创作方式的一次深刻转变。 传统的音乐生成模型通常以“批处理”模式运行:输入一段提示,等待几秒后输出完整音频。这种模式虽能产出完整作品,却缺...
    语音模型# Magenta RealTime# 实时音乐生成模型
    8个月前
    02030
    KittenML推出一个仅 25MB 的开源文本转语音模型Kitten TTS

    KittenML推出一个仅 25MB 的开源文本转语音模型Kitten TTS

    KittenML推出一款名为 Kitten TTS 的新型文本转语音(TTS)模型,它以极小体积、无需 GPU 和高质量语音合成能力为特点,专为边缘设备和轻量级部署场景设计。 GitHub:https...
    语音模型# Kitten TTS# 文本转语音模型
    8个月前
    05910
    小米自研声音理解大模型 MiDashengLM-7B 正式开源

    小米自研声音理解大模型 MiDashengLM-7B 正式开源

    小米正式发布并全量开源其自研声音理解大模型 —— MiDashengLM-7B。该模型在性能与效率上实现双重突破,标志着小米在多模态AI领域,尤其是声音理解方向的又一次重要进展。 GitHub 主页...
    语音模型# MiDashengLM-7B# 声音理解大模型# 小米
    8个月前
    03030
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Flova

    新Flova

    Flova AI 最近宣布集成字节跳动最新的视频生成模型——Seedance 2.0。这不仅仅是一个新模型的上线,更意味着普通创作者现在也能轻松制作出长达 60 至 90 秒、角色稳定、剧情连贯的电影级短剧。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    BuildCores

    BuildCores

    BuildCores 是一款集 3D 组装预览、智能兼容性检测、全球比价 于一体的在线装机工具。无论你是首次装机的新手,还是追求极致性能的发烧友,都能在手机或电脑上轻松规划、验证并优化你的 PC 配置。
    AI21 Labs

    AI21 Labs

    AI21 Labs发布了名为Jamba的模型,该模型通过融合Transformer和Mamba架构的优点,在精度和速度之间达到了完美的平衡。Jamba专为解决分布式计算和无缝部署等严峻挑战而设计,旨在将尖端研究转化为实际成果。
    DrFonts

    DrFonts

    drFonts是一个专注于 AI 驱动字体生成、搜索和自定义的在线平台,于 2025 年 10 月底正式推出 V1.0 版本,被宣传为“世界上第一个 AI 字体生成器”。这个平台的出现标志着 typography(字体设计)领域进入 AI 时代,它旨在解决传统字体创建的复杂性和时间消耗问题,让设计师、创作者甚至非专业用户都能轻松生成独特字体。
    查看完整榜单