SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    语音模型

    共 9 篇文章
    排序
    发布更新浏览点赞
    Maya1:开源 3B 语音模型,支持自然语言控制与情感标签的文本到语音生成

    Maya1:开源 3B 语音模型,支持自然语言控制与情感标签的文本到语音生成

    Maya Research 近期发布了一款突破性的开源文本到语音(TTS)模型——Maya1。这款仅3B参数的模型,不仅能将文本与自然语言描述转化为富有情感的24kHz高质量语音,还支持单GPU实时运...
    语音模型# Maya1# 语音模型
    5个月前
    0780
    Canary-ComfyUI:在 ComfyUI 中集成英伟达Canary模型的语音识别与翻译能力

    Canary-ComfyUI:在 ComfyUI 中集成英伟达Canary模型的语音识别与翻译能力

    英伟达推出的 Canary 是一款先进的端到端语音处理模型,支持自动语音识别(ASR)和语音翻译(AST),具备多语言识别、标点恢复和大小写规范化能力。通过社区开发的自定义节点 Canary-Comf...
    插件# Canary-ComfyUI# 语音模型
    7个月前
    01110
    Hume 推出新一代情感语音模型 EVI 3,让 AI 更懂你的情绪

    Hume 推出新一代情感语音模型 EVI 3,让 AI 更懂你的情绪

    总部位于纽约的情感语音AI初创公司 Hume 正式发布了其最新一代情感语音交互模型 —— EVI 3(Empathic Voice Interface)。它不仅听起来更自然、更有“人味”,还能感知用户...
    早报# EVI 3# Hume# 语音模型
    10个月前
    02020
    Kyutai 推出全新语音系统Unmute,让任何大模型都能“说话”

    Kyutai 推出全新语音系统Unmute,让任何大模型都能“说话”

    Kyutai 近日发布了一款名为 Unmute 的全新语音 AI 系统。与以往语音模型不同,Unmute 并不试图替代现有的语言模型,而是作为一个高度模块化的“插件”,可以无缝接入任意文本大语言模型...
    语音模型# Kyutai# Unmute# 语音模型
    10个月前
    01640
    多模态语音交互的端到端大型语音模型 VITA-Audio

    多模态语音交互的端到端大型语音模型 VITA-Audio

    腾讯优图实验室、南京大学和厦门大学的研究人员推出用于高效多模态语音交互的端到端大型语音模型 VITA-Audio,VITA-Audio 的目标是通过快速生成音频和文本令牌,显著降低流式语音交互中的延迟...
    语音模型# VITA-Audio# 语音模型
    11个月前
    02390
    亚马逊发布全新AI语音模型Nova Sonic:能够原生处理语音并生成自然流畅的语音

    亚马逊发布全新AI语音模型Nova Sonic:能够原生处理语音并生成自然流畅的语音

    周二,亚马逊推出了一款全新的生成式AI语音模型——Nova Sonic。这款模型能够原生处理语音并生成自然流畅的语音,标志着亚马逊在AI语音技术上的重大突破。 地址:https://aws.amazo...
    早报# Nova Sonic# 亚马逊# 语音模型
    12个月前
    01900
    Kyutai发布首个开源实时语音模型MoshiVis,开启视觉与语音交互新时代

    Kyutai发布首个开源实时语音模型MoshiVis,开启视觉与语音交互新时代

    在AI领域,将实时语音交互与视觉内容相结合一直是一个极具挑战性的课题。传统系统通常依赖于多个独立组件来实现语音活动检测、语音识别、文本对话和文本转语音合成,这种分段式的方法不仅容易引入延迟,还难以捕捉...
    语音模型# MoshiVis# 语音模型
    1年前
    02080
    谷歌将高清语音模型Chirp 3引入Vertex AI平台,并计划从下周开始正式推出

    谷歌将高清语音模型Chirp 3引入Vertex AI平台,并计划从下周开始正式推出

    在生成式AI领域,文本和图像生成一直是关注焦点。然而,随着技术的快速发展,语音AI正迅速崛起,成为下一波浪潮。谷歌在这一领域的最新进展是将高清语音模型Chirp 3集成到其Vertex AI开发平台中...
    早报# Chirp 3# Vertex AI# 语音模型
    1年前
    02940
    拟人化实时交互系统SpeechGPT 2.0-preview:支持多种音色,200毫秒延迟

    拟人化实时交互系统SpeechGPT 2.0-preview:支持多种音色,200毫秒延迟

    复旦大学自然语言处理实验室近期推出了SpeechGPT 2.0-preview,这是他们为实现情景智能而开发的第一个拟人化实时交互系统。基于百万小时级别的语音数据训练而成,这款端到端的语音大模型不仅能...
    多模态模型# SpeechGPT 2.0-preview# 语音模型
    1年前
    03290
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    即梦 CLI

    新即梦 CLI

    即梦 CLI (Jimeng CLI) 是字节跳动官方推出的面向 AI Agent 的命令行工具包。它打破了图形界面的限制,让任何 AI 智能体(如基于 OpenClaw 的助手)都能直接调用即梦强大的 Seedance 2.0 旗舰模型,实现图片与视频的自动化生成。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    Alaya Code

    Alaya Code

    九章云极正式推出AI编码平台Alaya Code,为企业及开发者提供一站式AI编程与模型调用服务。平台以"普惠+灵活"为核心定位,依托九章云极智算云生态,将算力调度、模型适配封装为开箱即用的开发工具,实现“算力-模型-开发”全链路打通,凭借高调用量、多模型聚合、双SDK兼容等优势,成为AI编程与智能体开发新选择。
    BuildCores

    BuildCores

    BuildCores 是一款集 3D 组装预览、智能兼容性检测、全球比价 于一体的在线装机工具。无论你是首次装机的新手,还是追求极致性能的发烧友,都能在手机或电脑上轻松规划、验证并优化你的 PC 配置。
    查看完整榜单