SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    语音识别

    共 6 篇文章
    排序
    发布更新浏览点赞
    ComfyUI-QwenASR:轻量可靠的语音转文本自定义节点,支持长音频处理与精准字幕生成

    ComfyUI-QwenASR:轻量可靠的语音转文本自定义节点,支持长音频处理与精准字幕生成

    ComfyUI-QwenASR是一款专为Qwen3-ASR(自动语音识别)模型打造的ComfyUI自定义节点包,核心定位是为ComfyUI用户提供简单、可靠、高效的语音转文本及字幕生成工作流,无需复杂...
    插件# ComfyUI-QwenASR# Qwen3-ASR# 语音识别
    1个月前
    0220
    Nemotron-Speech-Streaming-En-0.6B:面向低延迟与高吞吐的流式语音识别模型

    Nemotron-Speech-Streaming-En-0.6B:面向低延迟与高吞吐的流式语音识别模型

    英伟达推出的 Nemotron-Speech-Streaming-En-0.6B 是 Nemotron Speech 系列中的首个统一语音识别(ASR)模型,专为实时英语转录场景设计。它同时支持低延迟...
    语音模型# Nemotron-Speech-Streaming-En-0.6B# 英伟达# 语音识别
    2个月前
    0260
    Meta 开源 Omnilingual ASR:支持 1600+ 语言的语音识别系统

    Meta 开源 Omnilingual ASR:支持 1600+ 语言的语音识别系统

    Meta AI 近日发布了 Omnilingual ASR——一套开源、可扩展的多语言自动语音识别(ASR)系统,支持 1600 多种语言,并能通过零样本上下文学习泛化到 超过 5400 种语言,包括...
    语音模型# Meta# Omnilingual ASR# 语音识别
    4个月前
    0990
    LMMs-Lab发布轻量高效音频模型Aero-1-Audio:擅长长语音ASR与多模态任务

    LMMs-Lab发布轻量高效音频模型Aero-1-Audio:擅长长语音ASR与多模态任务

    LMMs-Lab 推出了一款紧凑型音频模型 Aero-1-Audio,专为多种音频任务设计,包括语音识别(ASR)、音频理解和音频指令跟随。作为 Aero-1 系列的第一代产品,Aero-1-Audi...
    语音模型# Aero-1-Audio# LMMs-Lab# 语音识别
    10个月前
    06310
    多语言、多任务 ASR 模型Dolphin:支持东亚、南亚、东南亚和中东地区的 40 种东方语言,同时也支持 22 种中国方言

    多语言、多任务 ASR 模型Dolphin:支持东亚、南亚、东南亚和中东地区的 40 种东方语言,同时也支持 22 种中国方言

    近年来,自动语音识别(ASR)技术取得了显著进展,这主要得益于模型架构的改进和大规模数据集的可用性。然而,现有的多语言 ASR 模型(如 Whisper)在处理东方语言时表现不佳,且存在可重复性问题 ...
    语音模型# ASR 模型# Dolphin# 语音识别
    11个月前
    07330
    ElevenLabs 推出语音转文本模型 Scribe,多语言支持与高精度

    ElevenLabs 推出语音转文本模型 Scribe,多语言支持与高精度

    ElevenLabs 是一家专注于人工智能音频生成的初创公司,最近筹集了 1.8 亿美元的资金,估值达到 33 亿美元。以其高质量的声音合成技术而闻名,该公司现在正通过推出其首个独立的语音转文本模型 ...
    语音模型# ElevenLabs# Scribe# 语音识别
    1年前
    02980
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    QClaw

    新QClaw

    腾讯推出QClaw ,这是基于 OpenClaw 进行深度产品化封装的“官方一键安装包”。它的目标非常明确:让强大的 AI Agent 能力,像安装普通软件一样简单,并直接融入中国人的国民级应用——微信和 QQ。
    纳米漫剧流水线

    纳米漫剧流水线

    国内首个工业级 AI 漫剧智能体生产平台 ——“纳米漫剧流水线” 启动公开测试。该平台面向漫剧工作室、视频制作机构与专业创作者,直击行业 “效率与品质难以兼顾” 的长期痛点,以高效量产、品质可控、风格统一为核心,正式开启 AI 漫剧工业化生产新时代。
    CoPaw

    CoPaw

    阿里云旗下阿里桌面 Agent 工具 CoPaw 正式开源,CoPaw 原生支持钉钉、飞书、QQ、Discord、iMessage 等聊天软件和平台,内置了多种 Skills,用户可一键本地部署也可通过阿里云计算巢和魔搭社区创空间实现一键云端部署,并调用千问系列等主流模型,是业界部署门槛最低的 Agent 工具之一。
    Cutia

    Cutia

    Cutia 是一个开源、基于浏览器的视频编辑工具,旨在成为 CapCut 的最佳替代品。它坚持“本地优先”的理念,让你无需安装任何重型软件,只需打开浏览器,即可享受专业级的多轨道剪辑体验,且全程无订阅、无追踪、无水印。
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    查看完整榜单