SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    语音模型

    共 122 篇文章
    包括文本生成音频、音乐生成模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Qwen3-TTS 全家桶开源:支持音色克隆、创造与多语言拟人语音

    Qwen3-TTS 全家桶开源:支持音色克隆、创造与多语言拟人语音

    在语音生成技术快速迭代的当下,开发者与用户对高保真、可定制、低延迟的语音合成方案需求日益迫切。阿里Qwen项目组推出的 Qwen3-TTS 开源全家桶,凭借音色克隆、音色创造、拟人化语音生成与自然语言...
    语音模型# Qwen3-TTS# 阿里
    4周前
    0800
    英伟达推出实时语音对话模型PersonaPlex,打造支持自定义角色与声音的自然对话AI

    英伟达推出实时语音对话模型PersonaPlex,打造支持自定义角色与声音的自然对话AI

    长期以来,语音对话 AI 面临一个根本性矛盾: 传统级联系统(ASR → LLM → TTS)允许你自定义角色和声音,但对话僵硬、延迟高、无法被打断; 全双工模型(如 Moshi)实现了自然的话轮转换...
    语音模型# PersonaPlex# 实时语音对话模型# 英伟达
    4周前
    0250
    FlashLabs推出Chroma 1.0:首个开源实时语音对话模型,支持低延迟个性化语音克隆

    FlashLabs推出Chroma 1.0:首个开源实时语音对话模型,支持低延迟个性化语音克隆

    在虚拟人交互与语音合成领域,兼顾低延迟、高保真语音克隆、多轮对话理解的模型一直是技术难点。由FlashLabs开发的 Chroma 1.0 正是一款突破性的多模态因果语言模型,它不仅能直接处理音频输入...
    语音模型# Chroma# FlashLabs# 实时语音对话模型
    4周前
    04410
    HeartMuLa:开源音乐基础模型家族,支持歌词识别、高保真生成与细粒度控制

    HeartMuLa:开源音乐基础模型家族,支持歌词识别、高保真生成与细粒度控制

    如果你曾幻想过——只需输入一段歌词和一句描述(如“一首欢快的流行歌,吉他伴奏,副歌要有电子音效”),AI 就能生成一首结构完整、音质高保真的歌曲——那么 HeartMuLa 项目正将这一愿景变为现实...
    语音模型# HeartMuLa# 音乐模型
    1个月前
    01740
    智谱AI开源GLM-TTS:LLM驱动的高质量TTS系统,支持零样本克隆与情感增强

    智谱AI开源GLM-TTS:LLM驱动的高质量TTS系统,支持零样本克隆与情感增强

    智谱AI推出的GLM-TTS是一款基于大语言模型的文本到语音合成系统,创新性采用LLM+Flow模型的两阶段架构,不仅实现了零样本语音克隆、流式推理等实用功能,还通过多奖励强化学习框架,大幅提升了语音...
    语音模型# GLM-TTS# 智谱AI
    1个月前
    0370
    ElevenLabs 推出 Scribe v2:支持 90+ 语言的高精度批量转录模型

    ElevenLabs 推出 Scribe v2:支持 90+ 语言的高精度批量转录模型

    ElevenLabs 正式发布 Scribe v2——一款专为大规模音视频内容处理设计的新一代语音转文字模型。与主打低延迟的 Scribe v2 Realtime 不同,Scribe v2 面向批量转...
    语音模型# ElevenLabs# Scribe v2
    1个月前
    01640
    Nemotron-Speech-Streaming-En-0.6B:面向低延迟与高吞吐的流式语音识别模型

    Nemotron-Speech-Streaming-En-0.6B:面向低延迟与高吞吐的流式语音识别模型

    英伟达推出的 Nemotron-Speech-Streaming-En-0.6B 是 Nemotron Speech 系列中的首个统一语音识别(ASR)模型,专为实时英语转录场景设计。它同时支持低延迟...
    语音模型# Nemotron-Speech-Streaming-En-0.6B# 英伟达# 语音识别
    1个月前
    0210
    通义百聆发布 Fun-Audio-Chat:8B 端到端语音模型,延迟更低、效率更高

    通义百聆发布 Fun-Audio-Chat:8B 端到端语音模型,延迟更低、效率更高

    通义实验室旗下语音团队 通义百聆(Tongyi Bailin)正式推出 Fun-Audio-Chat —— 一款专为自然、低延迟语音交互设计的端到端大型音频语言模型(Audio Language Mo...
    语音模型# Fun-Audio-Chat# 通义百聆
    2个月前
    0250
    Chatterbox-Turbo 发布:3.5 亿参数、一步解码、支持副语言标签的高效 TTS 模型

    Chatterbox-Turbo 发布:3.5 亿参数、一步解码、支持副语言标签的高效 TTS 模型

    Resemble AI 正式开源 Chatterbox 系列——一个由三款高性能文本转语音(TTS)模型组成的开源 TTS 工具集,覆盖低延迟交互、多语言支持与创意语音控制三大典型场景。所有模型均支持...
    语音模型# Chatterbox-Turbo
    2个月前
    0450
    Grok Voice Agent API 上线:支持多语言、实时工具调用与低延迟语音交互

    Grok Voice Agent API 上线:支持多语言、实时工具调用与低延迟语音交互

    xAI 正式推出 Grok Voice Agent API,向开发者开放其在 Grok 移动应用及特斯拉车载系统中使用的语音交互技术。该 API 支持构建能实时对话、调用工具、搜索网络并流利使用数十种...
    语音模型# Grok Voice Agent
    2个月前
    0260
    Meta发布SAM Audio:首个支持文本、视觉、时间提示的统一音频分离模型

    Meta发布SAM Audio:首个支持文本、视觉、时间提示的统一音频分离模型

    在图像领域,Meta 的 Segment Anything Model (SAM) 通过“任意分割”能力,彻底改变了计算机视觉的交互范式。如今,这一理念正式延伸至音频领域。 Meta 正式发布 SAM...
    语音模型# Meta# SAM Audio# 音频分离模型
    2个月前
    0910
    面壁智能发布 VoxCPM1.5:6.25Hz 标记率降低计算开销,支持高质量声音克隆

    面壁智能发布 VoxCPM1.5:6.25Hz 标记率降低计算开销,支持高质量声音克隆

    2025 年 12 月 5 日,面壁智能正式发布 VoxCPM1.5 模型权重。作为 VoxCPM 系列的重大升级版本,它在保留上下文感知语音生成与零样本声音克隆能力的基础上,通过两项关键技术改进,显...
    语音模型# VoxCPM1.5# 面壁智能
    2个月前
    0260
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    nanobot

    nanobot

    nanobot 是一款受 OpenClaw 启发,却走向极简主义的个人 AI 助手。仅用约 4,000 行代码,nanobot 就实现了核心智能体功能,体积相比 OpenClaw 的 43 万行代码缩减了 99%,真正做到了“小到可以理解”。
    OpenClaw汉化发行版

    OpenClaw汉化发行版

    OpenClaw汉化发行版已上线——不仅将CLI命令行、Dashboard网页控制台全部深度汉化,还能每小时自动同步OpenClaw官方更新,汉化版延迟低于1小时,既保留原版全部功能,又适配国内用户的使用习惯,3步即可完成安装部署,零基础也能快速上手。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    查看完整榜单