SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜
    • 网址提交

    语音模型

    共 104 篇文章
    包括文本生成音频、音乐生成模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    阶跃星辰开源 Step-Audio-EditX:首个基于 LLM 的迭代式音频编辑模型

    阶跃星辰开源 Step-Audio-EditX:首个基于 LLM 的迭代式音频编辑模型

    阶跃星辰(Step AI)正式发布 Step-Audio-EditX —— 一款革命性的基于大语言模型(LLM)的音频编辑系统,首次实现对语音情感、说话风格与副语言特征的高精度、迭代式、零样本控制,并...
    语音模型# Step-Audio-EditX# 阶跃星辰# 音频编辑模型
    2个月前
    01330
    SoulX-Podcast:支持方言与副语言的真实感播客语音合成系统

    SoulX-Podcast:支持方言与副语言的真实感播客语音合成系统

    西北工业大学、Soul AI 实验室与上海交通大学联合推出 SoulX-Podcast —— 一个专为长篇、多轮次、多说话者对话场景设计的语音合成系统。它不仅能生成高质量的播客风格对话语音,也在传统单...
    语音模型# SoulX-Podcast# 播客
    2个月前
    0700
    小红书开源 FireRedChat:一个完整、可控的全双工语音交互系统

    小红书开源 FireRedChat:一个完整、可控的全双工语音交互系统

    在智能助手和客户服务场景中,用户希望与AI的对话像人与人交流一样自然——可以随时插话、打断、继续,而系统能即时响应。要实现这种体验,需要真正的全双工语音交互能力。 然而,现有方案存在明显短板: 端到端...
    语音模型# FireRedChat# 小红书
    3个月前
    02290
    NeuTTS Air:可在本地运行的高效语音合成模型

    NeuTTS Air:可在本地运行的高效语音合成模型

    长期以来,高质量的文本转语音(TTS)能力主要依赖云端 API——虽然效果好,但存在延迟高、隐私风险、网络依赖等问题。 现在,一种新的选择正在出现:在本地设备上实现自然听感的语音合成。 NeuTTS ...
    语音模型# NeuTTS Air# 语音合成模型
    3个月前
    04990
    KaniTTS 发布:一种高效且富有表现力的文本到语音模型

    KaniTTS 发布:一种高效且富有表现力的文本到语音模型

    NineNineSix 团队近日推出 KaniTTS ——一个专为低延迟、高保真语音合成设计的开源文本到语音(TTS)系统。 GitHub:https://github.com/nineninesix...
    语音模型# KaniTTS
    3个月前
    01550
    Liquid AI 发布 LFM2-Audio:一个轻量级、端到端的音频-文本基础模型

    Liquid AI 发布 LFM2-Audio:一个轻量级、端到端的音频-文本基础模型

    Liquid AI 正式推出 LFM2-Audio-1.5B ——一款专为实时交互设计的端到端多模态基础模型,支持音频与文本的任意输入输出组合。 GitHub:https://github.com/L...
    语音模型# LFM2-Audio# Liquid AI
    3个月前
    01290
    Hume AI 发布 Octave 2:更智能、多语言、低延迟的语音合成系统

    Hume AI 发布 Octave 2:更智能、多语言、低延迟的语音合成系统

    Hume AI 正式推出 Octave 2 ——其下一代文本到语音(TTS)模型的重大升级版本。作为“语音语言模型”(Speech Language Model, SLM)架构的延续,Octave 2...
    语音模型# EVI 4 mini# Hume AI# Octave 2
    3个月前
    0860
    阿里发布Qwen3-LiveTranslate-Flash :全球首个视、听、说全模态实时同传大模型

    阿里发布Qwen3-LiveTranslate-Flash :全球首个视、听、说全模态实时同传大模型

    阿里通义实验室今日推出 Qwen3-LiveTranslate-Flash——一款基于 Qwen3-Omni 基座模型打造的多语言实时音视频同声传译大模型。 Demo:https://huggingf...
    语音模型# Qwen3-LiveTranslate-Flash# 实时同传大模型
    4个月前
    06360
    SongPrep:腾讯提出自动化歌曲预处理方案,破解AIGC歌曲生成的数据难题

    SongPrep:腾讯提出自动化歌曲预处理方案,破解AIGC歌曲生成的数据难题

    在AIGC的众多分支中,歌曲生成因兼具“音乐旋律”“歌词文本”“结构韵律”的多维度创作需求,一直是技术难点。尽管互联网上有海量歌曲资源,但要将这些原始音频转化为可训练AIGC模型的“结构化数据”,传统...
    语音模型# SongPrep# 腾讯# 音乐模型
    4个月前
    01000
    Qwen3-TTS-Flash 发布:支持多音色、多语言与多方言的语音合成模型

    Qwen3-TTS-Flash 发布:支持多音色、多语言与多方言的语音合成模型

    通义实验室近日推出 Qwen3-TTS-Flash,一款面向多场景应用的高性能文本转语音(TTS)模型。该模型现已通过 Qwen API 开放访问,支持自然、流畅且富有表现力的语音生成。 API:ht...
    语音模型# Qwen3-TTS-Flash# 语音合成模型
    4个月前
    02160
    Mini-Omni-Reasoner:将推理能力引入大型语音模型,让语音模型“边说边思考”

    Mini-Omni-Reasoner:将推理能力引入大型语音模型,让语音模型“边说边思考”

    由南洋理工大学、新加坡国立大学、腾讯、北京工业大学与北京航空航天大学联合研发,Mini-Omni-Reasoner 正式推出——这是一次将推理能力引入大型语音模型(Large Speech Model...
    语音模型# Mini-Omni-Reasoner# 语音思考模型
    4个月前
    02170
    小米发布 MiMo-Audio:基于亿级小时预训练的开源音频语言模型

    小米发布 MiMo-Audio:基于亿级小时预训练的开源音频语言模型

    小米近日正式推出 MiMo-Audio ——一个统一的生成式音频-语言模型,支持跨模态语音理解与生成任务。该模型通过超过一亿小时的大规模预训练,实现了强大的少样本学习能力,能够在无需微调的情况下,仅凭...
    语音模型# MiMo-Audio# 小米# 音频语言模型
    4个月前
    01920
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    NotebookLM

    NotebookLM

    NotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。
    Next AI Draw.io

    Next AI Draw.io

    Next AI Draw.io 是一个基于 Next.js 的 Web 应用,将大语言模型(LLM)与 draw.io 的强大图表能力深度集成。用户可通过自然语言指令创建、修改和增强专业图表,无需手动拖拽。
    KEJILION.SH

    新KEJILION.SH

    科技Lion的Shell脚本工具是款全能脚本工具箱,使用shell脚本编写。专为Linux服务器监控、测试和管理而设计。 无论您是初学者还是经验丰富的用户,该工具都能为您提供便捷的解决方案。
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    查看完整榜单