SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    语音模型

    共 123 篇文章
    包括文本生成音频、音乐生成模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    文本转语音模型Kokoro-82M:8200万参数,支持多语言和多声音选项

    文本转语音模型Kokoro-82M:8200万参数,支持多语言和多声音选项

    Kokoro是一款先进的文本转语音(TTS)模型,以其精简的参数量和卓越的性能在众多竞争对手中脱颖而出。拥有8200万参数的Kokoro,其模型大小不超过300M,却能生成高质量的音频输出。特别值得一...
    语音模型# Kokoro-82M# TTS
    1年前
    03,5250
    Nari Labs开源TTS模型Dia-1.6B:生成自然对话与非语言表达,支持声音克隆

    Nari Labs开源TTS模型Dia-1.6B:生成自然对话与非语言表达,支持声音克隆

    Nari Labs在今天开源了一个拥有16亿参数的文本转语音模型Dia-1.6B。这个模型的最大亮点在于它能够生成高度逼真的对话,并且加入了自然人声元素,比如笑声、咳嗽、清喉咙等,让语音合成更加生动自...
    语音模型# Dia-1.6B# Nari Labs# TTS模型
    10个月前
    02,2330
    Rev推出开源自动语音识别模型Reverb和话者分离模型

    Rev推出开源自动语音识别模型Reverb和话者分离模型

    Rev 最近宣布开源其尖端的 Reverb 自动语音识别 (ASR) 和话者分离模型。经过 200,000 小时高质量人工转录的英语语音训练,Reverb 在长篇语音识别领域中表现出色,超越了所有现有...
    语音模型# Reverb# 话者分离模型# 语音识别模型
    1年前
    07590
    阿里发布Qwen3-LiveTranslate-Flash :全球首个视、听、说全模态实时同传大模型

    阿里发布Qwen3-LiveTranslate-Flash :全球首个视、听、说全模态实时同传大模型

    阿里通义实验室今日推出 Qwen3-LiveTranslate-Flash——一款基于 Qwen3-Omni 基座模型打造的多语言实时音视频同声传译大模型。 Demo:https://huggingf...
    语音模型# Qwen3-LiveTranslate-Flash# 实时同传大模型
    5个月前
    07400
    多语言、多任务 ASR 模型Dolphin:支持东亚、南亚、东南亚和中东地区的 40 种东方语言,同时也支持 22 种中国方言

    多语言、多任务 ASR 模型Dolphin:支持东亚、南亚、东南亚和中东地区的 40 种东方语言,同时也支持 22 种中国方言

    近年来,自动语音识别(ASR)技术取得了显著进展,这主要得益于模型架构的改进和大规模数据集的可用性。然而,现有的多语言 ASR 模型(如 Whisper)在处理东方语言时表现不佳,且存在可重复性问题 ...
    语音模型# ASR 模型# Dolphin# 语音识别
    11个月前
    07040
    Fish Audio 发布 OpenAudio S1-mini:支持 14 种语言、50+ 情感语气的开源 TTS 模型

    Fish Audio 发布 OpenAudio S1-mini:支持 14 种语言、50+ 情感语气的开源 TTS 模型

    文本转语音(TTS)领域迎来一位重量级开源选手 —— OpenAudio S1-mini。 这是由 Fish Audio 团队 推出的 S1 模型的轻量化版本,参数规模为 5亿(0.5B),基于超过 ...
    语音模型# Fish Audio# OpenAudio S1-mini# TTS 模型
    9个月前
    06970
    OpenAI 推出更快的语音转录模型Whisper large-v3-turbo,不牺牲质量、速度提升8 倍

    OpenAI 推出更快的语音转录模型Whisper large-v3-turbo,不牺牲质量、速度提升8 倍

    在10月1日的DevDay活动中,OpenAI宣布了一项重大更新:推出了Whisper large-v3-turbo语音转录模型。这款新模型在保持质量几乎不变的前提下,处理速度比之前的large-v3...
    语音模型# OpenAI# Whisper large-v3-turbo# 语音转录模型
    1年前
    06820
    Useful开源自动语音识别 (ASR) 模型Moonshine:专门针对实时转录和语音命令处理进行了优化

    Useful开源自动语音识别 (ASR) 模型Moonshine:专门针对实时转录和语音命令处理进行了优化

    Useful开源了一款名为 Moonshine 的全新语音转文本模型。这款模型不仅在速度和效率上超越了目前最领先的 OpenAI 的 Whisper 模型,而且在准确率方面也达到了同等水平甚至更优。M...
    语音模型# Moonshine# 语音识别模型
    1年前
    06810
    Llasa:基于LLaMA语言模型的先进文本转语音(TTS)系统

    Llasa:基于LLaMA语言模型的先进文本转语音(TTS)系统

    文本转语音(TTS)技术正成为人机交互领域的重要工具。随着娱乐、无障碍服务、客户服务和教育等行业对语音合成的需求不断增加,市场对逼真、情感丰富且支持多种语言的语音合成技术的需求也在迅速增长。然而,传统...
    语音模型# Llasa# TTS
    1年前
    06590
    对话也能生成语音?复旦大学开源 MOSS-TTSD 实现高质量对话语音合成

    对话也能生成语音?复旦大学开源 MOSS-TTSD 实现高质量对话语音合成

    复旦大学 OpenMOSS 团队正式发布了全新语音生成模型 MOSS-TTSD(Text to Spoken Dialogue),这是目前首个能够直接从对话文本生成自然、富有表现力对话语音的大规模模型...
    语音模型# MOSS-TTSD# 复旦大学
    8个月前
    06300
    LMMs-Lab发布轻量高效音频模型Aero-1-Audio:擅长长语音ASR与多模态任务

    LMMs-Lab发布轻量高效音频模型Aero-1-Audio:擅长长语音ASR与多模态任务

    LMMs-Lab 推出了一款紧凑型音频模型 Aero-1-Audio,专为多种音频任务设计,包括语音识别(ASR)、音频理解和音频指令跟随。作为 Aero-1 系列的第一代产品,Aero-1-Audi...
    语音模型# Aero-1-Audio# LMMs-Lab# 语音识别
    10个月前
    06280
    KittenML推出一个仅 25MB 的开源文本转语音模型Kitten TTS

    KittenML推出一个仅 25MB 的开源文本转语音模型Kitten TTS

    KittenML推出一款名为 Kitten TTS 的新型文本转语音(TTS)模型,它以极小体积、无需 GPU 和高质量语音合成能力为特点,专为边缘设备和轻量级部署场景设计。 GitHub:https...
    语音模型# Kitten TTS# 文本转语音模型
    7个月前
    05810
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    纳米漫剧流水线

    纳米漫剧流水线

    国内首个工业级 AI 漫剧智能体生产平台 ——“纳米漫剧流水线” 启动公开测试。该平台面向漫剧工作室、视频制作机构与专业创作者,直击行业 “效率与品质难以兼顾” 的长期痛点,以高效量产、品质可控、风格统一为核心,正式开启 AI 漫剧工业化生产新时代。
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单