SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    语音模型

    共 130 篇文章
    包括文本生成音频、音乐生成模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    阿里通义实验室联合港科大 & 浙大推出 ThinkSound:首个支持视频到音频生成与编辑的统一框架

    阿里通义实验室联合港科大 & 浙大推出 ThinkSound:首个支持视频到音频生成与编辑的统一框架

    阿里巴巴通义实验室联合香港科技大学与浙江大学的研究团队提出了一种全新的多模态视频-音频生成与编辑框架 —— ThinkSound。 项目主页:https://thinksound-project.gi...
    语音模型# ThinkSound# 多模态视频-音频生成
    9个月前
    02110
    阿里通义项目组更新 Qwen-TTS:合成语音自然度接近人类水平

    阿里通义项目组更新 Qwen-TTS:合成语音自然度接近人类水平

    阿里通义实验室通过 Qwen API 发布了最新版本的 Qwen-TTS 语音合成模型(支持 qwen-tts-latest 或 qwen-tts-2025-05-22)。该模型在语音合成领域实现了多...
    语音模型# Qwen-TTS
    9个月前
    04100
    对话也能生成语音?复旦大学开源 MOSS-TTSD 实现高质量对话语音合成

    对话也能生成语音?复旦大学开源 MOSS-TTSD 实现高质量对话语音合成

    复旦大学 OpenMOSS 团队正式发布了全新语音生成模型 MOSS-TTSD(Text to Spoken Dialogue),这是目前首个能够直接从对话文本生成自然、富有表现力对话语音的大规模模型...
    语音模型# MOSS-TTSD# 复旦大学
    9个月前
    06690
    Kyutai STT:低延迟、高吞吐的流式语音识别模型,专为实时交互优化

    Kyutai STT:低延迟、高吞吐的流式语音识别模型,专为实时交互优化

    近日,Kyutai 实验室发布了一款全新的流式语音转文本(Speech-to-Text)模型——Kyutai STT,专为实时语音交互场景设计,在延迟与准确性之间实现了出色平衡,非常适合如语音助手、在...
    语音模型# Kyutai STT# 语音识别模型
    9个月前
    03640
    谷歌开源实时音乐生成模型 Magenta RealTime:8亿参数,支持文本/音频操控

    谷歌开源实时音乐生成模型 Magenta RealTime:8亿参数,支持文本/音频操控

    今天,Google DeepMind 宣布开源一款名为 Magenta RealTime 的实时音乐生成模型。该模型基于 Apache 2.0 许可证发布,具备实时交互能力,能够根据文本提示或音频示例...
    语音模型# Magenta RealTime# 音乐生成模型
    9个月前
    03310
    中科院团队推出多模态新模型 Stream-Omni,语音+视觉交互更高效

    中科院团队推出多模态新模型 Stream-Omni,语音+视觉交互更高效

    由中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室以及中国科学院大学联合提出,Stream-Omni 是一种新型的语言-视觉-语音多模态模型。该模型通过高效的模态对齐机...
    语音模型# Stream-Omni# 语言-视觉-语音多模态模型
    9个月前
    03000
    清华、腾讯等联合推出基于语言模型的高质量歌曲生成框架 LeVo

    清华、腾讯等联合推出基于语言模型的高质量歌曲生成框架 LeVo

    随着大语言模型(LLMs)和音频语言模型的快速发展,AI 在音乐生成领域的能力显著提升,特别是在 歌词到歌曲生成 的方向上取得了突破性进展。 然而,现有方法仍面临两大核心挑战: 歌曲结构复杂,难以同时...
    语音模型# LeVo# SongGeneration# 音乐生成
    9个月前
    02600
    音频描述数据集FusionAudio-1.2M:通过多模态上下文融合来生成细粒度的音频描述

    音频描述数据集FusionAudio-1.2M:通过多模态上下文融合来生成细粒度的音频描述

    香港中文大学(深圳)和华南理工大学的研究人员推出推出一个名为FusionAudio-1.2M的音频描述数据集,通过多模态上下文融合来生成细粒度的音频描述。该数据集通过模拟人类听觉感知的方式,整合了多种...
    语音模型# FusionAudio-1.2M
    9个月前
    01890
    昆仑万维推出 SkyReels-Audio:多模态驱动、无限长度的高质量会说话肖像视频生成框架

    昆仑万维推出 SkyReels-Audio:多模态驱动、无限长度的高质量会说话肖像视频生成框架

    昆仑万维旗下 SkyReels 团队 发布了全新音视频生成模型——SkyReals-Audio,一个用于合成高保真、时间一致的“会说话”肖像视频的统一框架。 项目主页:https://skyworka...
    语音模型# SkyReels-Audio# 昆仑万维
    9个月前
    02940
    Vui:轻量级、可本地运行的开源对话语音模型

    Vui:轻量级、可本地运行的开源对话语音模型

    Vui 是一组轻量级、可本地运行的开源对话语音模型,支持设备端部署,适用于对话生成、语音克隆及非语音声音合成等任务。 GitHub:https://github.com/fluxions-ai/vui...
    语音模型# Vui# 对话语音模型
    9个月前
    03710
    Fish Audio 发布 OpenAudio S1-mini:支持 14 种语言、50+ 情感语气的开源 TTS 模型

    Fish Audio 发布 OpenAudio S1-mini:支持 14 种语言、50+ 情感语气的开源 TTS 模型

    文本转语音(TTS)领域迎来一位重量级开源选手 —— OpenAudio S1-mini。 这是由 Fish Audio 团队 推出的 S1 模型的轻量化版本,参数规模为 5亿(0.5B),基于超过 ...
    语音模型# Fish Audio# OpenAudio S1-mini# TTS 模型
    10个月前
    07170
    OpenAudio S1:Fish Audio 推出媲美语音演员的尖端文本转语音模型

    OpenAudio S1:Fish Audio 推出媲美语音演员的尖端文本转语音模型

    Fish Audio 重磅推出 OpenAudio S1 —— 一款在表现力、自然度和可控性方面达到新高度的文本转语音(TTS)模型。作为目前全球最先进的开源 TTS 模型之一,S1 在超过 200万...
    语音模型# Fish Audio# OpenAudio S1# TTS模型
    10个月前
    04710
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Yihen-Drama

    Yihen-Drama

    Yihen-Drama 是一个专为 AI 短剧创作 打造的全流程一站式平台。它打破了传统视频制作的壁垒,将复杂的影视工业化流程浓缩为一条流畅的自动化流水线。
    悟空

    新悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    寻光

    寻光

    寻光是一款由阿里巴巴达摩院推出的 AI 视频创作平台,通过AI术重塑传统视频制作流程。它集成了从剧本生成到最终视频输出的多个环节,适合各种用户,包括专业团队、个人创作者和新媒体工作者。平台强调高效和易用,目标是让更多人体验 AI 驱动的视频创作魅力。
    Edison Scientific

    Edison Scientific

    对于科研人员而言,Kosmos不仅是效率工具,更是“科研伙伴”——能承担重复性、规模化的基础工作,让人类科学家聚焦创意、假设与实验验证等核心环节。随着底层模型的持续优化,AI科学家有望在更多领域突破人类认知边界,推动科学研究进入“人机协同、高效创新”的新时代。
    image2prompt 

    image2prompt 

    image2prompt 是一个为创作者、设计师、AI 用户设计的轻量小工具,用来将网页中任意图片一键生成 Prompt 提示词。
    查看完整榜单