Otter.aiOtter.ai(原名 AISense)是一家美国人工智能公司,专注于语音转文本转录和会议自动化工具。它通过 AI 技术帮助用户记录会议、生成摘要,并提取关键洞见,从而节省时间。根据用户报告,使用该工具可每周节省超过 4 小时。 公司使命是让会议更智能高效,适用于销售、招聘、教育和媒体等领域。0610AI语音# Otter.ai# 会议转录
Audio.Z.AIAudio.Z.AI 是体验 GLM-TTS 能力的最简单入口。虽然功能尚处早期,但其免费、高音质、支持克隆的特点,已足够满足轻量级语音合成需求。0530AI语音# Audio.Z.AI# GLM-TTS# 智谱 AI
NovaSRNovaSR 是一个仅 50KB 的音频上采样模型,能够将模糊的 16kHz 音频升级为清晰明快的 48kHz 音频,处理速度超过实时速度的 3500 倍。0470AI语音# NovaSR# 音频超分辨率模型
SupertonicSupertonic 是一款闪电般快速的设备端文本转语音系统,专为极致性能和最小计算开销而设计。基于 ONNX Runtime 驱动,完全在您的设备上运行——无需云端支持、无需 API 调用、无需担心隐私问题。0430AI语音# Supertonic# TTS
Subtle Computing总部位于加州的初创公司 Subtle Computing 正在尝试从根本上解决这个问题:他们不训练更大的语言模型,而是确保输入语音本身足够“干净”。通过一种轻量级的端到端语音隔离模型,他们的技术能在本地设备上实时分离用户语音与环境噪音,显著提升后续语音识别的准确性。0430AI语音# Subtle Computing# 语音隔离模型
CartesiaCartesia 不仅带来了 SSM 架构驱动的低延迟 TTS、真实场景优化的 STT 模型,更通过 Line 平台解决了语音代理开发的“最后一公里”问题。其核心价值在于:让“实时、自然、可靠”的语音交互不再是技术难题,让开发者无需关注底层模型与基础设施,专注于业务逻辑与用户体验。0360AI语音# AI 语音# Cartesia# STT 模型
Ai好记Ai好记是为知识管理设计的多模态知识管理工具。它可以将全网音视频内容统一解析,生成结构化笔记、思维导图和 AI 总结,让碎片化的学习资料像Windows系统中的文件一样,有序可查、逻辑清晰、易于调用。0250AI语音# Ai好记# 知识管理
LinaCodecLinacodec是一款极低比特率(171 bps)的音频分词器,仅用 12.5 个 token/秒 即可完整表示语音信号,并支持 48kHz 高清音频重建。0210AI语音# Linacodec# 音频分词器
Voice Clone StudioVoice Clone Studio是一个基于 Gradio 的语音克隆与语音设计 Web 界面,由 Qwen3-TTS 和 VibeVoice 驱动。支持使用 Whisper 或 VibeVoice-asr 进行自动转录。0140AI语音# Qwen3-TTS# VibeVoice# Voice Clone Studio
Alexandria Audiobook Generator将一本小说转化为一部由不同角色配音、带有自然停顿和情感表达的有声书,通常需要一个专业的配音团队。现在,借助 Alexandria,你可以在本地完成这一切。它是一个基于 Qwen3-TTS 引擎构建的开源工具,利用大语言模型(LLM)自动标注脚本,并为每个角色分配独特的声音,最终导出为可直接使用的 MP3 或供专业编辑的 Audacity 多轨项目。010AI语音# Alexandria Audiobook Generator# Qwen3-TTS# 有声书
MimikaStudioMimikaStudio 是一款面向 macOS(Apple Silicon 芯片)的本地优先应用,核心优势在于全程本地运行,无需依赖云端,仅需 3 秒音频就能克隆任意声音,同时集成文本转语音、PDF 逐句朗读、有声书创作等实用功能,且针对苹果芯片做了深度优化,通过 MLX 实现原生 Metal 加速,兼顾性能与隐私。010AI语音# MimikaStudio# TTS# 语音克隆