SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    AI语音

    共 35 篇网址
    AI绘画AI视频AI音乐AI助手AI语音AI编程3DAI工具基准测试AI搜索模型API实用工具AI数字人服务托管AI硬件影音视频文件共享无版权资源浏览器操作系统图形图像爱学习信息查询下载服务学习办公AI辅助趣味网站
    排序
    发布更新浏览点赞
    TTSMaker

    TTSMaker

    TTSMaker是一款在线文本转语音工具,也称为AI语音生成器,它可以将文本转换为音频,并且可以播放或下载音频文件。
    06,5800
    AI语音# AI配音# TTSMaker# 文本转语音
    NaturalReader

    NaturalReader

    NaturalReader 是一款功能强大、易于使用的文本转语音工具,适合各种场景下的阅读需求。无论您是希望节省时间的学生、需要无障碍支持的读者,还是寻求高质量语音内容的创作者,NaturalReader 都能为您提供卓越的体验。
    02,0600
    AI语音# NaturalReader# TTS# 文本转语音
    AI Speaker

    AI Speaker

    AI Speaker 是一款基于微软 TTS 服务的在线文字转语音(TTS)工具,能够将文字即时转换为自然流畅的 语音,支持100多种语言和600多种AI语音。
    01,0591
    AI语音# AI Speaker# TTS# 微软
    Fish Audio

    Fish Audio

    Fish Audio是一款生成式AI文本转语音和语音克隆平台,允许用户上传15秒语音片段进行克隆,支持多种场景如故事讲述、广告和有声书。它与AWS、Google Cloud和Nvidia合作,确保技术兼容性。
    08520
    AI语音# Fish Audio# OpenAudio S1# TTS
    ElevenLabs

    ElevenLabs

    ElevenLabs 成立于 2022 年,总部位于英国和波兰,致力于利用 AI 技术生成自然、富有表现力的语音。它的平台支持从文本到语音的转换、语音克隆和多语言配音,服务于各种需求。
    07950
    AI语音# AI语音# ElevenLabs# 语音克隆
    录咖

    录咖

    录咖以其强大的 AI 技术和丰富的功能,为音视频创作和处理带来了前所未有的便捷体验。无论你是创作者、教育工作者还是普通用户,录咖都能成为你得力的助手。
    06600
    AI语音# AI音频处理# 录咖
    海螺语音

    海螺语音

    MiniMax旗下的海螺AI上线了基于T2A-01系列语音模型的“海螺语音”。这一更新为用户带来了更加自然、流畅的超拟人人声体验。
    06200
    AI语音# MiniMax# TTS# 海螺AI
    Zonos

    Zonos

    Zonos模型基于约 20 万小时的语音数据进行训练,涵盖中性和富有表现力的语音模式。虽然主要数据集为英语内容,但也包含大量中文、日语、法语、西班牙语和德语的语音数据,从而支持多语言合成。
    05550
    AI语音# Zonos# Zyphra# 开源TTS模型
    ListenHub

    ListenHub

    ListenHub 是一款轻量级、支持中文和英语的 NotebookLM 替代工具,基于前沿AI技术,快速生成你感兴趣的专属播客。无论你想听什么,ListenHub 都能用超真实AI人声为你呈现自然对话。相比 NotebookLM,ListenHub 生成内容更加快速,且支持移动端的流畅体验,让你随时随地探索热门话题、同步收藏、轻松制作和收听播客。
    05210
    AI语音# ListenHub# NotebookLM# 播客
    OpenAI音频模型

    OpenAI音频模型

    OpenAI正式推出了全新的音频模型,涵盖了文本转语音(Text-to-Speech, TTS)和语音转文本(Speech-to-Text, STT)两大核心功能,为语音交互领域带来了重大突破。
    05120
    AI语音# gpt-4o-mini-transcribe# gpt-4o-mini-tts# gpt-4o-transcribe
    Podcastle

    Podcastle

    播客录制和编辑平台 Podcastle 正式发布了其名为 Asyncflow v1.0 的 AI 模型,正式加入 AI 驱动的文本转语音(TTS)领域。该平台不仅为用户提供了超过 450 个 AI 声音,还计划推出面向开发者的 API,允许开发者将文本转语音模型直接集成到他们的应用程序中。
    05110
    AI语音# Asyncflow# Podcastle# TTS
    SubEasy

    SubEasy

    SubEasy 是视频创作者的得力助手,它通过强大的字幕生成、翻译和优化功能,帮助创作者节省时间,提升效率,从而更专注于内容创作本身。无论是精准的字幕生成、智能的润色与重排,还是多语言翻译和自定义设计,SubEasy 都为创作者提供了全方位的支持。
    05090
    AI语音# AI字幕转录# SubEasy# 字幕翻译
    ElevenReader

    ElevenReader

    AI 语音初创公司 ElevenLabs 旗下的文本转语音(TTS)应用 ElevenReader是一款强大的移动文本转语音应用程序,旨在帮助用户随时随地聆听任何文本内容。
    04940
    AI语音# ElevenLabs# ElevenReader# GenFM
    Hedra

    Hedra

    Hedra 是一个人工智能创作实验室,通过尖端的视频模型,赋能人类讲故事的能力。只需几秒钟,即可将您的角色变成富有表现力的说话者、歌手和说唱歌手。
    04620
    AI语音# Hedra# 对口型# 数字人
    Krisp

    Krisp

    Krisp的AI口音转换功能为跨语言沟通提供了一种新的解决方案。通过实时将说话者的口音转换为美国英语,该工具能够有效减少沟通障碍,提高沟通效率。尽管目前该技术主要针对印度英语口音,但其未来扩展计划显示了其巨大的应用潜力。
    04590
    AI语音# Krisp# 印度口音# 口音转换
    Gladia

    Gladia

    法国AI公司Gladia发布语音转文字模型Solaria,Solaria都能提供无可比拟的多语言支持基础,且质量与速度毫不妥协。凭借英语等常见语言94%的词准确率(WAR)行业标杆、独家支持的100+种语言(其中42种为Gladia独有)、以及270毫秒超低延迟,Solaria正在为AI语音交互树立全新标准。
    04140
    AI语音# Gladia# Solaria# 语音识别模型
    Hume AI

    Hume AI

    Hume AI 是一家专注于先进 AI 语音技术的研究实验室和技术公司,使命是确保AI的开发服务于人类目标和情感福祉。通过构建能够以共情方式进行交流并学习如何让人们感到快乐的 AI 模型,Hume 正在重新定义语音交互的未来。
    03670
    AI语音# AI语音# EVI2# Hume AI
    Wispr Flow

    Wispr Flow

    Wispr Flow 是一款帮助用户通过语音输入以 4 倍于传统打字速度进行写作的工具,适用于 Mac、Windows 和 iPhone。它的最新产品是 iOS 应用,2025 年 6 月正式推出,允许用户在移动设备上享受高效语音输入体验。功能包括 AI 自动编辑、个人词典、不同应用的语气调整和设备间同步,特别适合专业人士和内容创作者。
    03460
    AI语音# Wispr Flow# 语音输入
     Palabra AI 

     Palabra AI 

    Palabra 是一款先进的AI翻译工具,专为实时语音翻译设计。它为视频通话、现场活动、流媒体提供无缝的人工智能翻译和口译服务,并可通过 API 进行集成。可以将其视为为动态沟通需求设计的即时翻译器。
    03410
    AI语音# Palabra AI# 实时语音翻译
    Qwen3-ASR-Toolkit

    Qwen3-ASR-Toolkit

    Qwen3-ASR-Toolkit是一种高级、高性能的 Python 命令行工具包,用于使用 Qwen-ASR API(前身为 Qwen3-ASR-Flash)。此实现通过智能地将长音频/视频文件分割并并行处理,克服了 API 的 3 分钟音频长度限制,从而实现数小时内容的快速转录。
    03200
    AI语音# Python 命令行# Qwen3-ASR-Toolkit# 通义千问
    TEN

    TEN

    TEN Agent 是一个由 TEN 驱动的对话式 AI 代理,集成了 Gemini 2.0 Live、OpenAI Realtime、RTC 等技术。它提供实时的视觉、听觉和语音能力,同时完全兼容 Dify 和 Coze 等流行的工作流平台。
    02670
    AI语音# TEN# TEN Agent# TEN Framework
    Vogent

    Vogent

    Vogent 是一个功能强大的语音 AI 平台,结合无代码工具、先进模型和灵活的 API,为企业和开发者提供快速构建高性能语音代理的解决方案。其 Voicelab 进一步增强了实时语音推理能力,特别适合需要低延迟、类人语音交互的场景。
    02630
    AI语音# Vogent# Vogent Voicelab# 语音智能体
    NotebookLlaMa

    NotebookLlaMa

    NotebookLlaMa 是一个谷歌NotebookLM的开源替代品,它使用 AI 技术将 PDF 文档转换为对话式、播客风格的音频摘要,特别适合开发者和研究人员探索文档处理和音频生成技术。
    01500
    AI语音# AI播客# NotebookLlaMa# NotebookLM
    WhisperLiveKit

    WhisperLiveKit

    WhisperLiveKit 提供了一种轻量、可扩展的解决方案——它将实时语音转文本与说话者分割能力集成于本地运行环境中,无需依赖云端服务,兼顾性能与数据安全。
    01430
    AI语音# Whisper# WhisperLiveKit
    Pocket FM

    Pocket FM

    Pocket FM 的实践揭示了一个正在成型的新范式:AI 不再只是内容生成工具,而是贯穿创作、优化、本地化与分发的全流程引擎。
    01250
    AI语音# CoPilot# Pocket FM
    Huxe

    Huxe

    Huxe可以在几秒钟内,将任何内容制作成播客。Huxe 是您的个人音频伴侣,旨在将您关注的内容制作成精美的互动音频。无论您是在准备出发、通勤途中、遛狗,还是只是想远离屏幕——Huxe 都能让您聆听世界。
    01130
    AI语音# Huxe# NotebookLM# 播客
    Vocal Image

    Vocal Image

    从“被声音问题困扰的创业者”到“帮助百万人改善沟通的领航者”,Vocal Image的故事证明:真正解决用户痛点的产品,总能找到自己的市场。而AI技术的加持,让“个性化沟通指导”从“少数人的特权”变成“普惠服务”,这或许正是它能在竞争中脱颖而出的核心原因。
    0960
    AI语音# AI语音教练# Vocal Image
    GPT-Realtime

    GPT-Realtime

    gpt-realtime 的发布,不仅是技术迭代,更意味着 OpenAI 的语音能力已具备**企业级稳定性与功能性**。它不再只是一个演示功能,而是可以嵌入真实业务流程的工具。对于开发者而言,Realtime API 的全面开放,加上 SIP、MCP、图像输入等企业级功能的加入,意味着构建复杂语音应用的门槛正在降低。
    0860
    AI语音# GPT-Realtime# OpenAI# Realtime API
    Handy CLI

    Handy CLI

    Handy CLI 是一款面向开发者和高效能用户的本地化语音控制工具,它将语音识别、AI 辅助与键盘自动化结合,让你通过自然语言直接操控电脑操作。
    0720
    AI语音# Handy CLI# 语音控制
    Otter.ai

    Otter.ai

    Otter.ai(原名 AISense)是一家美国人工智能公司,专注于语音转文本转录和会议自动化工具。它通过 AI 技术帮助用户记录会议、生成摘要,并提取关键洞见,从而节省时间。根据用户报告,使用该工具可每周节省超过 4 小时。 公司使命是让会议更智能高效,适用于销售、招聘、教育和媒体等领域。
    0520
    AI语音# Otter.ai# 会议转录
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Next AI Draw.io

    Next AI Draw.io

    Next AI Draw.io 是一个基于 Next.js 的 Web 应用,将大语言模型(LLM)与 draw.io 的强大图表能力深度集成。用户可通过自然语言指令创建、修改和增强专业图表,无需手动拖拽。
    MuMuAINovel

    MuMuAINovel

    MuMuAINovel 是一款开源的 AI 小说创作辅助工具,专为写作者设计。它不替代你的创意,而是帮你把想法快速转化为结构完整、设定一致、可扩展的长篇故事。
    OiiOii AI

    OiiOii AI

    OiiOii.ai 是一个基于多智能体架构的动画生成平台,其核心目标是将动画制作从线性协作流程,转变为端到端的自动化生成。用户只需上传一张图片或输入一段文字描述,系统即可自动完成剧本生成、分镜设计、角色建模、镜头调度、配乐合成与最终渲染,输出一段完整动画视频。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
     Hitem3D 

     Hitem3D 

    Hitem3D由Math Magic开发,是一款基于专有高分辨率AI模型Sparc3D的3D生成工具。只需上传一张参考图像,即可即时生成行业领先品质的工作室级3D资产,极大降低了3D创作的门槛。这一突破性解决方案赋能游戏开发者、设计师和3D艺术家高效释放创意,加速从概念到部署的创作流程。
    查看完整榜单