SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    语音模型

    共 97 篇文章
    包括文本生成音频、音乐生成模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    OpenAudio S1:Fish Audio 推出媲美语音演员的尖端文本转语音模型

    OpenAudio S1:Fish Audio 推出媲美语音演员的尖端文本转语音模型

    Fish Audio 重磅推出 OpenAudio S1 —— 一款在表现力、自然度和可控性方面达到新高度的文本转语音(TTS)模型。作为目前全球最先进的开源 TTS 模型之一,S1 在超过 200万...
    语音模型# Fish Audio# OpenAudio S1# TTS模型
    6个月前
    02780
    Nexa AI 推出一款专为边缘部署设计的音频语言模型 OmniAudio-2.6B

    Nexa AI 推出一款专为边缘部署设计的音频语言模型 OmniAudio-2.6B

    音频语言模型(ALMs)在各种应用中发挥着关键作用,包括实时转录、翻译、语音控制系统和辅助技术。然而,许多现有解决方案面临高延迟、大量计算需求以及依赖云端处理等限制。这些问题对边缘部署提出了挑战,因为...
    语音模型# OmniAudio-2.6B
    10个月前
    02750
    高效语音分离模型TIGER:解决低延迟语音处理系统中的高效率问题

    高效语音分离模型TIGER:解决低延迟语音处理系统中的高效率问题

    清华大学的研究人员推出高效语音分离模型TIGER,解决低延迟语音处理系统中的高效率问题。语音分离是指从混合音频信号中准确分离出不同声音源的任务,类似于人类在嘈杂环境中专注于特定语音信号的“鸡尾酒会效应...
    语音模型# TIGeR# 语音分离模型
    7个月前
    02700
    月之暗面开源端到端语音对话的通用音频模型Kimi-Audio

    月之暗面开源端到端语音对话的通用音频模型Kimi-Audio

    月之暗面开源了一款名为 Kimi-Audio 的通用音频模型。这款模型以其统一的框架和强大的多功能性,在音频处理领域引起了广泛关注。Kimi-Audio 不仅能够处理语音识别、音频问答、字幕生成等任务...
    语音模型# Kimi-Audio# 月之暗面
    7个月前
    02660
    香港科技大学推出歌词生成音乐模型YuE

    香港科技大学推出歌词生成音乐模型YuE

    香港科技大学的研究团队近期在探索从给定歌词生成完整歌曲音频的领域取得了重要进展,这一过程被称为“歌词到歌曲”(lyrics2song)。尽管基于文本条件的音乐生成模型在创作非人声音乐短片段方面已经展现...
    语音模型# AI音乐# YuE
    10个月前
    02650
    Hume AI推出了首个理解其所说内容的文本转语音系统Octave

    Hume AI推出了首个理解其所说内容的文本转语音系统Octave

    Hume 推出了 Octave(全能文本和语音引擎),这是首个专为文本转语音设计的大语言模型(LLM)。与传统文本转语音(TTS)系统不同,Octave 不仅能够“朗读”文字,还能真正理解单词在上下文...
    语音模型# Hume AI# Octave# TTS
    9个月前
    02640
    中科院团队推出多模态新模型 Stream-Omni,语音+视觉交互更高效

    中科院团队推出多模态新模型 Stream-Omni,语音+视觉交互更高效

    由中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室以及中国科学院大学联合提出,Stream-Omni 是一种新型的语言-视觉-语音多模态模型。该模型通过高效的模态对齐机...
    语音模型# Stream-Omni# 语言-视觉-语音多模态模型
    6个月前
    02550
    新型语音语言模型 LLaMA-Omni 2:实现高质量的实时语音交互

    新型语音语言模型 LLaMA-Omni 2:实现高质量的实时语音交互

    中国科学院计算技术研究所、中国科学院人工智能安全重点实验室和中国科学院大学的研究人员推出新型语音语言模型 LLaMA-Omni 2 ,旨在实现高质量的实时语音交互。LLaMA-Omni 2 基于 Qw...
    语音模型# LLaMA-Omni 2# 语音语言模型
    7个月前
    02420
    清华、腾讯等联合推出基于语言模型的高质量歌曲生成框架 LeVo

    清华、腾讯等联合推出基于语言模型的高质量歌曲生成框架 LeVo

    随着大语言模型(LLMs)和音频语言模型的快速发展,AI 在音乐生成领域的能力显著提升,特别是在 歌词到歌曲生成 的方向上取得了突破性进展。 然而,现有方法仍面临两大核心挑战: 歌曲结构复杂,难以同时...
    语音模型# LeVo# SongGeneration# 音乐生成
    6个月前
    02400
    Zyphra开源支持高保真语音克隆的实时文本转语音(TTS)模型 Zonos-v0.1 测试版

    Zyphra开源支持高保真语音克隆的实时文本转语音(TTS)模型 Zonos-v0.1 测试版

    Zyphra 最近发布了 Zonos-v0.1 测试版,这是一款支持高保真语音克隆的实时文本转语音(TTS)模型。作为开源项目的一部分,Zonos-v0.1 包含两个强大的 TTS 模型:一个 16 ...
    语音模型# TTS模型# Zonos-v0.1
    10个月前
    02380
    Orpheus TTS:基于 Llama-3b 构建的先进文本转语音(TTS)模型

    Orpheus TTS:基于 Llama-3b 构建的先进文本转语音(TTS)模型

    Canopy Labs推出基于 Llama-3b 骨干网络构建的开源文本转语音(TTS)模型Orpheus TTS ,这款模型展示了利用大语言模型(LLM)进行高质量语音合成的能力。 模型规模与特性 ...
    语音模型# Llama-3b# Orpheus TTS# TTS
    9个月前
    02360
    Kyutai Labs推出新一代流式TTS模型Kyutai TTS:实时语音生成迈入新阶段

    Kyutai Labs推出新一代流式TTS模型Kyutai TTS:实时语音生成迈入新阶段

    近日,Kyutai Labs 正式开源了一款名为 Kyutai TTS 的文本转语音(TTS)模型,参数规模达到16亿,支持实时、流式处理,成为该领域的技术新标杆。这一模型不仅具备出色的语音生成能力...
    语音模型# Kyutai Labs# Kyutai TTS# TTS模型
    5个月前
    02320
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    NOFX

    NOFX

    NOFX是一个基于 DeepSeek/Qwen AI 的加密货币期货自动交易系统,支持 Binance、Hyperliquid和Aster DEX交易所,多AI模型实盘竞赛,具备完整的市场分析、AI决策、自我学习机制和专业的Web监控界面。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
     Hitem3D 

     Hitem3D 

    Hitem3D由Math Magic开发,是一款基于专有高分辨率AI模型Sparc3D的3D生成工具。只需上传一张参考图像,即可即时生成行业领先品质的工作室级3D资产,极大降低了3D创作的门槛。这一突破性解决方案赋能游戏开发者、设计师和3D艺术家高效释放创意,加速从概念到部署的创作流程。
    OpenStock

    OpenStock

    OpenStock 是昂贵市场平台的开源替代品。追踪实时价格、设置个性化提醒并探索详细的公司洞察——公开构建,为所有人服务,永久免费。
    查看完整榜单