SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    语音模型

    共 9 篇文章
    排序
    发布更新浏览点赞
    Maya1:开源 3B 语音模型,支持自然语言控制与情感标签的文本到语音生成

    Maya1:开源 3B 语音模型,支持自然语言控制与情感标签的文本到语音生成

    Maya Research 近期发布了一款突破性的开源文本到语音(TTS)模型——Maya1。这款仅3B参数的模型,不仅能将文本与自然语言描述转化为富有情感的24kHz高质量语音,还支持单GPU实时运...
    语音模型# Maya1# 语音模型
    3个月前
    0680
    Canary-ComfyUI:在 ComfyUI 中集成英伟达Canary模型的语音识别与翻译能力

    Canary-ComfyUI:在 ComfyUI 中集成英伟达Canary模型的语音识别与翻译能力

    英伟达推出的 Canary 是一款先进的端到端语音处理模型,支持自动语音识别(ASR)和语音翻译(AST),具备多语言识别、标点恢复和大小写规范化能力。通过社区开发的自定义节点 Canary-Comf...
    插件# Canary-ComfyUI# 语音模型
    5个月前
    01090
    Hume 推出新一代情感语音模型 EVI 3,让 AI 更懂你的情绪

    Hume 推出新一代情感语音模型 EVI 3,让 AI 更懂你的情绪

    总部位于纽约的情感语音AI初创公司 Hume 正式发布了其最新一代情感语音交互模型 —— EVI 3(Empathic Voice Interface)。它不仅听起来更自然、更有“人味”,还能感知用户...
    早报# EVI 3# Hume# 语音模型
    9个月前
    01890
    Kyutai 推出全新语音系统Unmute,让任何大模型都能“说话”

    Kyutai 推出全新语音系统Unmute,让任何大模型都能“说话”

    Kyutai 近日发布了一款名为 Unmute 的全新语音 AI 系统。与以往语音模型不同,Unmute 并不试图替代现有的语言模型,而是作为一个高度模块化的“插件”,可以无缝接入任意文本大语言模型...
    语音模型# Kyutai# Unmute# 语音模型
    9个月前
    01570
    多模态语音交互的端到端大型语音模型 VITA-Audio

    多模态语音交互的端到端大型语音模型 VITA-Audio

    腾讯优图实验室、南京大学和厦门大学的研究人员推出用于高效多模态语音交互的端到端大型语音模型 VITA-Audio,VITA-Audio 的目标是通过快速生成音频和文本令牌,显著降低流式语音交互中的延迟...
    语音模型# VITA-Audio# 语音模型
    9个月前
    02330
    亚马逊发布全新AI语音模型Nova Sonic:能够原生处理语音并生成自然流畅的语音

    亚马逊发布全新AI语音模型Nova Sonic:能够原生处理语音并生成自然流畅的语音

    周二,亚马逊推出了一款全新的生成式AI语音模型——Nova Sonic。这款模型能够原生处理语音并生成自然流畅的语音,标志着亚马逊在AI语音技术上的重大突破。 地址:https://aws.amazo...
    早报# Nova Sonic# 亚马逊# 语音模型
    11个月前
    01870
    Kyutai发布首个开源实时语音模型MoshiVis,开启视觉与语音交互新时代

    Kyutai发布首个开源实时语音模型MoshiVis,开启视觉与语音交互新时代

    在AI领域,将实时语音交互与视觉内容相结合一直是一个极具挑战性的课题。传统系统通常依赖于多个独立组件来实现语音活动检测、语音识别、文本对话和文本转语音合成,这种分段式的方法不仅容易引入延迟,还难以捕捉...
    语音模型# MoshiVis# 语音模型
    11个月前
    02050
    谷歌将高清语音模型Chirp 3引入Vertex AI平台,并计划从下周开始正式推出

    谷歌将高清语音模型Chirp 3引入Vertex AI平台,并计划从下周开始正式推出

    在生成式AI领域,文本和图像生成一直是关注焦点。然而,随着技术的快速发展,语音AI正迅速崛起,成为下一波浪潮。谷歌在这一领域的最新进展是将高清语音模型Chirp 3集成到其Vertex AI开发平台中...
    早报# Chirp 3# Vertex AI# 语音模型
    11个月前
    02910
    拟人化实时交互系统SpeechGPT 2.0-preview:支持多种音色,200毫秒延迟

    拟人化实时交互系统SpeechGPT 2.0-preview:支持多种音色,200毫秒延迟

    复旦大学自然语言处理实验室近期推出了SpeechGPT 2.0-preview,这是他们为实现情景智能而开发的第一个拟人化实时交互系统。基于百万小时级别的语音数据训练而成,这款端到端的语音大模型不仅能...
    多模态模型# SpeechGPT 2.0-preview# 语音模型
    1年前
    03120
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    A股智能分析系统

    A股智能分析系统

    A股智能分析系统是基于 AI 大模型的 A 股自选股智能分析系统,每日自动分析并推送「决策仪表盘」到企业微信/飞书/Telegram/邮箱
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    OpenClaw 一键部署工具

    OpenClaw 一键部署工具

    OpenClaw 一键部署工具是一款专为 AI 爱好者和开发者打造的私人 AI 助手一键部署工具,支持多模型、多消息渠道接入,提供图形界面与命令行两种部署方式,无需复杂的手动配置,就能快速搭建属于自己的跨平台 AI 助手,兼具灵活性与实用性。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    查看完整榜单