SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    语音模型

    共 139 篇文章
    包括文本生成音频、音乐生成模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Nari Labs开源TTS模型Dia-1.6B:生成自然对话与非语言表达,支持声音克隆

    Nari Labs开源TTS模型Dia-1.6B:生成自然对话与非语言表达,支持声音克隆

    Nari Labs在今天开源了一个拥有16亿参数的文本转语音模型Dia-1.6B。这个模型的最大亮点在于它能够生成高度逼真的对话,并且加入了自然人声元素,比如笑声、咳嗽、清喉咙等,让语音合成更加生动自...
    语音模型# Dia-1.6B# Nari Labs# TTS模型
    12个月前
    02,2490
    多语言、多任务 ASR 模型Dolphin:支持东亚、南亚、东南亚和中东地区的 40 种东方语言,同时也支持 22 种中国方言

    多语言、多任务 ASR 模型Dolphin:支持东亚、南亚、东南亚和中东地区的 40 种东方语言,同时也支持 22 种中国方言

    近年来,自动语音识别(ASR)技术取得了显著进展,这主要得益于模型架构的改进和大规模数据集的可用性。然而,现有的多语言 ASR 模型(如 Whisper)在处理东方语言时表现不佳,且存在可重复性问题 ...
    语音模型# ASR 模型# Dolphin# 语音识别
    1年前
    07580
    字节跳动与浙大联合发布轻量高效TTS模型MegaTTS3

    字节跳动与浙大联合发布轻量高效TTS模型MegaTTS3

    字节跳动和浙江大学的研究人员推出的一款轻量级TTS模型:MegaTTS3,0.45B,高质量语音克隆,支持中英文以及中英文混合,支持口音强度控制,后面会支持更细粒度的发音和时长调整。 GitHub:h...
    语音模型# MegaTTS3# TTS模型# 字节跳动
    1年前
    04870
    Kyutai发布首个开源实时语音模型MoshiVis,开启视觉与语音交互新时代

    Kyutai发布首个开源实时语音模型MoshiVis,开启视觉与语音交互新时代

    在AI领域,将实时语音交互与视觉内容相结合一直是一个极具挑战性的课题。传统系统通常依赖于多个独立组件来实现语音活动检测、语音识别、文本对话和文本转语音合成,这种分段式的方法不仅容易引入延迟,还难以捕捉...
    语音模型# MoshiVis# 语音模型
    1年前
    02090
    英伟达开源多语言语音识别和翻译模型:Canary 1B Flash 和 Canary 180M Flash

    英伟达开源多语言语音识别和翻译模型:Canary 1B Flash 和 Canary 180M Flash

    在促进全球交流的进程中,多语言语音识别和翻译技术扮演着至关重要的角色。然而,开发能够实时准确地转录和翻译多种语言的模型面临着诸如处理语言细微差别、确保高准确性与低延迟以及实现跨设备高效部署等挑战。为应...
    语音模型# Canary 180M Flash# Canary 1B Flash# 多语言语音识别
    1年前
    04740
    符号音乐生成模型NotaGen:通过借鉴大语言模型(LLM)的训练范式来生成高质量的古典乐谱

    符号音乐生成模型NotaGen:通过借鉴大语言模型(LLM)的训练范式来生成高质量的古典乐谱

    中央音乐学院、美国罗切斯特大学、北京飞天云动科技、北京航空航天大学和清华大学的研究人员推出符号音乐生成模型NotaGen,通过借鉴大语言模型(LLM)的训练范式来生成高质量的古典乐谱。其在超过 160...
    语音模型# NotaGen# 古典音乐生成模型
    1年前
    05330
    Orpheus TTS:基于 Llama-3b 构建的先进文本转语音(TTS)模型

    Orpheus TTS:基于 Llama-3b 构建的先进文本转语音(TTS)模型

    Canopy Labs推出基于 Llama-3b 骨干网络构建的开源文本转语音(TTS)模型Orpheus TTS ,这款模型展示了利用大语言模型(LLM)进行高质量语音合成的能力。 模型规模与特性 ...
    语音模型# Llama-3b# Orpheus TTS# TTS
    1年前
    02490
    香港科技大学推出统一DiT架构模型AudioX:通过多模态输入(如文本、视频、图像、音乐和音频)生成高质量的音频和音乐

    香港科技大学推出统一DiT架构模型AudioX:通过多模态输入(如文本、视频、图像、音乐和音频)生成高质量的音频和音乐

    香港科技大学的研究人员推出统一DiT架构模型AudioX,通过多模态输入(如文本、视频、图像、音乐和音频)生成高质量的音频和音乐。AudioX通过创新的多模态掩码训练策略,强制模型从掩码输入中学习,从...
    语音模型# AI音乐# AudioX# DiT模型
    1年前
    05110
    小米推出音频推理模型R1-AQA:强化学习助力机器“听懂”声音背后的逻辑

    小米推出音频推理模型R1-AQA:强化学习助力机器“听懂”声音背后的逻辑

    在大模型时代,人们对机器的期望已经不再局限于简单的语音识别或声音分类,而是希望机器能够具备复杂的推理能力。例如,通过汽车座舱的录音判断车辆是否存在潜在故障,从交响乐中推测作曲家的情绪,或者在地铁站的嘈...
    语音模型# R1-AQA# 小米# 音频推理模型
    1年前
    05460
    SparkAudio推出Spark-TTS:基于大语言模型的高效文本到语音系统

    SparkAudio推出Spark-TTS:基于大语言模型的高效文本到语音系统

    香港科技大学、SparkAudio开源社区、上海出门问问信息技术有限公司、上海交通大学、南洋理工大学、西北工业大学和网易伏羲人工智能实验室的研究人员推出Spark-TTS,这是一个基于大语言模型(LL...
    语音模型# Spark-TTS# SparkAudio# 文本到语音
    1年前
    02990
    Sesame 团队推出新一代语音技术 CSM:让语音助手更像真人

    Sesame 团队推出新一代语音技术 CSM:让语音助手更像真人

    Sesame 团队近期发布了一项名为 Conversational Speech Model (CSM) 的全新语音技术,旨在解决当前语音助手普遍存在的“死板”问题。这项技术的目标是让语音助手不仅能够...
    语音模型# CSM# 语音技术
    1年前
    04130
    Hume AI推出了首个理解其所说内容的文本转语音系统Octave

    Hume AI推出了首个理解其所说内容的文本转语音系统Octave

    Hume 推出了 Octave(全能文本和语音引擎),这是首个专为文本转语音设计的大语言模型(LLM)。与传统文本转语音(TTS)系统不同,Octave 不仅能够“朗读”文字,还能真正理解单词在上下文...
    语音模型# Hume AI# Octave# TTS
    1年前
    02750
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Flova

    新Flova

    Flova AI 最近宣布集成字节跳动最新的视频生成模型——Seedance 2.0。这不仅仅是一个新模型的上线,更意味着普通创作者现在也能轻松制作出长达 60 至 90 秒、角色稳定、剧情连贯的电影级短剧。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    即梦 CLI

    即梦 CLI

    即梦 CLI (Jimeng CLI) 是字节跳动官方推出的面向 AI Agent 的命令行工具包。它打破了图形界面的限制,让任何 AI 智能体(如基于 OpenClaw 的助手)都能直接调用即梦强大的 Seedance 2.0 旗舰模型,实现图片与视频的自动化生成。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单