AI SpeakerAI Speaker 是一款基于微软 TTS 服务的在线文字转语音(TTS)工具,能够将文字即时转换为自然流畅的 语音,支持100多种语言和600多种AI语音。01,0591AI语音# AI Speaker# TTS# 微软
SupertonicSupertonic 是一款闪电般快速的设备端文本转语音系统,专为极致性能和最小计算开销而设计。基于 ONNX Runtime 驱动,完全在您的设备上运行——无需云端支持、无需 API 调用、无需担心隐私问题。080AI语音# Supertonic# TTS
SpeechifySpeechify 早已以高质量文本转语音(TTS)闻名,帮助用户“听”文章、PDF 和网页。如今,它正从语音输出工具转型为以语音为第一交互方式的 AI 生产力平台。0100AI语音# Speechify# TTS
CartesiaCartesia 不仅带来了 SSM 架构驱动的低延迟 TTS、真实场景优化的 STT 模型,更通过 Line 平台解决了语音代理开发的“最后一公里”问题。其核心价值在于:让“实时、自然、可靠”的语音交互不再是技术难题,让开发者无需关注底层模型与基础设施,专注于业务逻辑与用户体验。090AI语音# AI 语音# Cartesia# STT 模型
Ai好记Ai好记是为知识管理设计的多模态知识管理工具。它可以将全网音视频内容统一解析,生成结构化笔记、思维导图和 AI 总结,让碎片化的学习资料像Windows系统中的文件一样,有序可查、逻辑清晰、易于调用。0150AI语音# Ai好记# 知识管理
Subtle Computing总部位于加州的初创公司 Subtle Computing 正在尝试从根本上解决这个问题:他们不训练更大的语言模型,而是确保输入语音本身足够“干净”。通过一种轻量级的端到端语音隔离模型,他们的技术能在本地设备上实时分离用户语音与环境噪音,显著提升后续语音识别的准确性。0180AI语音# Subtle Computing# 语音隔离模型
Otter.aiOtter.ai(原名 AISense)是一家美国人工智能公司,专注于语音转文本转录和会议自动化工具。它通过 AI 技术帮助用户记录会议、生成摘要,并提取关键洞见,从而节省时间。根据用户报告,使用该工具可每周节省超过 4 小时。 公司使命是让会议更智能高效,适用于销售、招聘、教育和媒体等领域。0520AI语音# Otter.ai# 会议转录
Handy CLIHandy CLI 是一款面向开发者和高效能用户的本地化语音控制工具,它将语音识别、AI 辅助与键盘自动化结合,让你通过自然语言直接操控电脑操作。0720AI语音# Handy CLI# 语音控制
HuxeHuxe可以在几秒钟内,将任何内容制作成播客。Huxe 是您的个人音频伴侣,旨在将您关注的内容制作成精美的互动音频。无论您是在准备出发、通勤途中、遛狗,还是只是想远离屏幕——Huxe 都能让您聆听世界。01130AI语音# Huxe# NotebookLM# 播客
Qwen3-ASR-ToolkitQwen3-ASR-Toolkit是一种高级、高性能的 Python 命令行工具包,用于使用 Qwen-ASR API(前身为 Qwen3-ASR-Flash)。此实现通过智能地将长音频/视频文件分割并并行处理,克服了 API 的 3 分钟音频长度限制,从而实现数小时内容的快速转录。03200AI语音# Python 命令行# Qwen3-ASR-Toolkit# 通义千问
Vocal Image从“被声音问题困扰的创业者”到“帮助百万人改善沟通的领航者”,Vocal Image的故事证明:真正解决用户痛点的产品,总能找到自己的市场。而AI技术的加持,让“个性化沟通指导”从“少数人的特权”变成“普惠服务”,这或许正是它能在竞争中脱颖而出的核心原因。0960AI语音# AI语音教练# Vocal Image
GPT-Realtimegpt-realtime 的发布,不仅是技术迭代,更意味着 OpenAI 的语音能力已具备**企业级稳定性与功能性**。它不再只是一个演示功能,而是可以嵌入真实业务流程的工具。对于开发者而言,Realtime API 的全面开放,加上 SIP、MCP、图像输入等企业级功能的加入,意味着构建复杂语音应用的门槛正在降低。 0860AI语音# GPT-Realtime# OpenAI# Realtime API
WhisperLiveKitWhisperLiveKit 提供了一种轻量、可扩展的解决方案——它将实时语音转文本与说话者分割能力集成于本地运行环境中,无需依赖云端服务,兼顾性能与数据安全。01430AI语音# Whisper# WhisperLiveKit
Palabra AI Palabra 是一款先进的AI翻译工具,专为实时语音翻译设计。它为视频通话、现场活动、流媒体提供无缝的人工智能翻译和口译服务,并可通过 API 进行集成。可以将其视为为动态沟通需求设计的即时翻译器。03410AI语音# Palabra AI# 实时语音翻译
Pocket FMPocket FM 的实践揭示了一个正在成型的新范式:AI 不再只是内容生成工具,而是贯穿创作、优化、本地化与分发的全流程引擎。01250AI语音# CoPilot# Pocket FM
VogentVogent 是一个功能强大的语音 AI 平台,结合无代码工具、先进模型和灵活的 API,为企业和开发者提供快速构建高性能语音代理的解决方案。其 Voicelab 进一步增强了实时语音推理能力,特别适合需要低延迟、类人语音交互的场景。02630AI语音# Vogent# Vogent Voicelab# 语音智能体
NotebookLlaMaNotebookLlaMa 是一个谷歌NotebookLM的开源替代品,它使用 AI 技术将 PDF 文档转换为对话式、播客风格的音频摘要,特别适合开发者和研究人员探索文档处理和音频生成技术。01500AI语音# AI播客# NotebookLlaMa# NotebookLM
TENTEN Agent 是一个由 TEN 驱动的对话式 AI 代理,集成了 Gemini 2.0 Live、OpenAI Realtime、RTC 等技术。它提供实时的视觉、听觉和语音能力,同时完全兼容 Dify 和 Coze 等流行的工作流平台。02670AI语音# TEN# TEN Agent# TEN Framework
Wispr FlowWispr Flow 是一款帮助用户通过语音输入以 4 倍于传统打字速度进行写作的工具,适用于 Mac、Windows 和 iPhone。它的最新产品是 iOS 应用,2025 年 6 月正式推出,允许用户在移动设备上享受高效语音输入体验。功能包括 AI 自动编辑、个人词典、不同应用的语气调整和设备间同步,特别适合专业人士和内容创作者。03460AI语音# Wispr Flow# 语音输入
Fish AudioFish Audio是一款生成式AI文本转语音和语音克隆平台,允许用户上传15秒语音片段进行克隆,支持多种场景如故事讲述、广告和有声书。它与AWS、Google Cloud和Nvidia合作,确保技术兼容性。08520AI语音# Fish Audio# OpenAudio S1# TTS
ListenHubListenHub 是一款轻量级、支持中文和英语的 NotebookLM 替代工具,基于前沿AI技术,快速生成你感兴趣的专属播客。无论你想听什么,ListenHub 都能用超真实AI人声为你呈现自然对话。相比 NotebookLM,ListenHub 生成内容更加快速,且支持移动端的流畅体验,让你随时随地探索热门话题、同步收藏、轻松制作和收听播客。05210AI语音# ListenHub# NotebookLM# 播客
Gladia法国AI公司Gladia发布语音转文字模型Solaria,Solaria都能提供无可比拟的多语言支持基础,且质量与速度毫不妥协。凭借英语等常见语言94%的词准确率(WAR)行业标杆、独家支持的100+种语言(其中42种为Gladia独有)、以及270毫秒超低延迟,Solaria正在为AI语音交互树立全新标准。04140AI语音# Gladia# Solaria# 语音识别模型
KrispKrisp的AI口音转换功能为跨语言沟通提供了一种新的解决方案。通过实时将说话者的口音转换为美国英语,该工具能够有效减少沟通障碍,提高沟通效率。尽管目前该技术主要针对印度英语口音,但其未来扩展计划显示了其巨大的应用潜力。04590AI语音# Krisp# 印度口音# 口音转换
SubEasySubEasy 是视频创作者的得力助手,它通过强大的字幕生成、翻译和优化功能,帮助创作者节省时间,提升效率,从而更专注于内容创作本身。无论是精准的字幕生成、智能的润色与重排,还是多语言翻译和自定义设计,SubEasy 都为创作者提供了全方位的支持。05090AI语音# AI字幕转录# SubEasy# 字幕翻译
OpenAI音频模型OpenAI正式推出了全新的音频模型,涵盖了文本转语音(Text-to-Speech, TTS)和语音转文本(Speech-to-Text, STT)两大核心功能,为语音交互领域带来了重大突破。05120AI语音# gpt-4o-mini-transcribe# gpt-4o-mini-tts# gpt-4o-transcribe
ElevenLabsElevenLabs 成立于 2022 年,总部位于英国和波兰,致力于利用 AI 技术生成自然、富有表现力的语音。它的平台支持从文本到语音的转换、语音克隆和多语言配音,服务于各种需求。07960AI语音# AI语音# ElevenLabs# 语音克隆
Podcastle播客录制和编辑平台 Podcastle 正式发布了其名为 Asyncflow v1.0 的 AI 模型,正式加入 AI 驱动的文本转语音(TTS)领域。该平台不仅为用户提供了超过 450 个 AI 声音,还计划推出面向开发者的 API,允许开发者将文本转语音模型直接集成到他们的应用程序中。05110AI语音# Asyncflow# Podcastle# TTS
NaturalReaderNaturalReader 是一款功能强大、易于使用的文本转语音工具,适合各种场景下的阅读需求。无论您是希望节省时间的学生、需要无障碍支持的读者,还是寻求高质量语音内容的创作者,NaturalReader 都能为您提供卓越的体验。02,0600AI语音# NaturalReader# TTS# 文本转语音