SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    语音识别

    共 6 篇文章
    排序
    发布更新浏览点赞
    ComfyUI-QwenASR:轻量可靠的语音转文本自定义节点,支持长音频处理与精准字幕生成

    ComfyUI-QwenASR:轻量可靠的语音转文本自定义节点,支持长音频处理与精准字幕生成

    ComfyUI-QwenASR是一款专为Qwen3-ASR(自动语音识别)模型打造的ComfyUI自定义节点包,核心定位是为ComfyUI用户提供简单、可靠、高效的语音转文本及字幕生成工作流,无需复杂...
    插件# ComfyUI-QwenASR# Qwen3-ASR# 语音识别
    3周前
    0170
    Nemotron-Speech-Streaming-En-0.6B:面向低延迟与高吞吐的流式语音识别模型

    Nemotron-Speech-Streaming-En-0.6B:面向低延迟与高吞吐的流式语音识别模型

    英伟达推出的 Nemotron-Speech-Streaming-En-0.6B 是 Nemotron Speech 系列中的首个统一语音识别(ASR)模型,专为实时英语转录场景设计。它同时支持低延迟...
    语音模型# Nemotron-Speech-Streaming-En-0.6B# 英伟达# 语音识别
    1个月前
    0210
    Meta 开源 Omnilingual ASR:支持 1600+ 语言的语音识别系统

    Meta 开源 Omnilingual ASR:支持 1600+ 语言的语音识别系统

    Meta AI 近日发布了 Omnilingual ASR——一套开源、可扩展的多语言自动语音识别(ASR)系统,支持 1600 多种语言,并能通过零样本上下文学习泛化到 超过 5400 种语言,包括...
    语音模型# Meta# Omnilingual ASR# 语音识别
    3个月前
    0810
    LMMs-Lab发布轻量高效音频模型Aero-1-Audio:擅长长语音ASR与多模态任务

    LMMs-Lab发布轻量高效音频模型Aero-1-Audio:擅长长语音ASR与多模态任务

    LMMs-Lab 推出了一款紧凑型音频模型 Aero-1-Audio,专为多种音频任务设计,包括语音识别(ASR)、音频理解和音频指令跟随。作为 Aero-1 系列的第一代产品,Aero-1-Audi...
    语音模型# Aero-1-Audio# LMMs-Lab# 语音识别
    10个月前
    06170
    多语言、多任务 ASR 模型Dolphin:支持东亚、南亚、东南亚和中东地区的 40 种东方语言,同时也支持 22 种中国方言

    多语言、多任务 ASR 模型Dolphin:支持东亚、南亚、东南亚和中东地区的 40 种东方语言,同时也支持 22 种中国方言

    近年来,自动语音识别(ASR)技术取得了显著进展,这主要得益于模型架构的改进和大规模数据集的可用性。然而,现有的多语言 ASR 模型(如 Whisper)在处理东方语言时表现不佳,且存在可重复性问题 ...
    语音模型# ASR 模型# Dolphin# 语音识别
    11个月前
    06870
    ElevenLabs 推出语音转文本模型 Scribe,多语言支持与高精度

    ElevenLabs 推出语音转文本模型 Scribe,多语言支持与高精度

    ElevenLabs 是一家专注于人工智能音频生成的初创公司,最近筹集了 1.8 亿美元的资金,估值达到 33 亿美元。以其高质量的声音合成技术而闻名,该公司现在正通过推出其首个独立的语音转文本模型 ...
    语音模型# ElevenLabs# Scribe# 语音识别
    12个月前
    02960
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    nanobot

    nanobot

    nanobot 是一款受 OpenClaw 启发,却走向极简主义的个人 AI 助手。仅用约 4,000 行代码,nanobot 就实现了核心智能体功能,体积相比 OpenClaw 的 43 万行代码缩减了 99%,真正做到了“小到可以理解”。
    OpenClaw汉化发行版

    OpenClaw汉化发行版

    OpenClaw汉化发行版已上线——不仅将CLI命令行、Dashboard网页控制台全部深度汉化,还能每小时自动同步OpenClaw官方更新,汉化版延迟低于1小时,既保留原版全部功能,又适配国内用户的使用习惯,3步即可完成安装部署,零基础也能快速上手。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    查看完整榜单