AI语音

共 44 篇网址

AI Speaker

AI Speaker 是一款基于微软 TTS 服务的在线文字转语音（TTS）工具，能够将文字即时转换为自然流畅的语音，支持100多种语言和600多种AI语音。

01,5001

AI语音 # AI Speaker # TTS # 微软

Rebel Audio

Rebel Audio 将自己定位为一个面向初次及早期创作者的一站式播客平台。其理念很简单：播客创作者无需在多种工具、订阅和工作流程之间切换，而是可以在一个平台上完成节目的创建、录制、剪辑、上传封面图、生成文字稿、为社交媒体制作片段以及发布。

050

AI语音 # Rebel Audio # 播客

FlowSpeech

FlowSpeech 是一款先进的 AI 语音生成器（Text To Speech / TTS），可将文字转换为仿真人声。它理解脚本的上下文、情绪与节奏，让配音更像真人，适合需要专业配音的创作者。

0190

AI语音 # AI语音 # AI配音 # FlowSpeech

Particle

Particle 推出了一项名为 “播客片段”（Podcast Clips）的重磅功能。它不再仅仅聚合网络上的文字新闻，而是将触角延伸至音频领域，利用 AI 技术从海量播客中自动提取最精彩、最相关的时刻，并将其无缝嵌入到你的新闻信息流中。

0250

AI语音 # Particle # 播客

Alexandria Audiobook Generator

Alexandria Audiobook Generator

将一本小说转化为一部由不同角色配音、带有自然停顿和情感表达的有声书，通常需要一个专业的配音团队。现在，借助 Alexandria，你可以在本地完成这一切。它是一个基于 Qwen3-TTS 引擎构建的开源工具，利用大语言模型（LLM）自动标注脚本，并为每个角色分配独特的声音，最终导出为可直接使用的 MP3 或供专业编辑的 Audacity 多轨项目。

0180

AI语音 # Alexandria Audiobook Generator # Qwen3-TTS # 有声书

MimikaStudio

MimikaStudio 是一款面向 macOS（Apple Silicon 芯片）的本地优先应用，核心优势在于全程本地运行，无需依赖云端，仅需 3 秒音频就能克隆任意声音，同时集成文本转语音、PDF 逐句朗读、有声书创作等实用功能，且针对苹果芯片做了深度优化，通过 MLX 实现原生 Metal 加速，兼顾性能与隐私。

0210

AI语音 # MimikaStudio # TTS # 语音克隆

Voice Clone Studio

Voice Clone Studio

Voice Clone Studio是一个基于 Gradio 的语音克隆与语音设计 Web 界面，由 Qwen3-TTS 和 VibeVoice 驱动。支持使用 Whisper 或 VibeVoice-asr 进行自动转录。

0310

AI语音 # Qwen3-TTS # VibeVoice # Voice Clone Studio

NovaSR

NovaSR 是一个仅 50KB 的音频上采样模型，能够将模糊的 16kHz 音频升级为清晰明快的 48kHz 音频，处理速度超过实时速度的 3500 倍。

0770

AI语音 # NovaSR # 音频超分辨率模型

Audio.Z.AI

Audio.Z.AI 是体验 GLM-TTS 能力的最简单入口。虽然功能尚处早期，但其免费、高音质、支持克隆的特点，已足够满足轻量级语音合成需求。

0730

AI语音 # Audio.Z.AI # GLM-TTS # 智谱 AI

LinaCodec

Linacodec是一款极低比特率（171 bps）的音频分词器，仅用 12.5 个 token/秒即可完整表示语音信号，并支持 48kHz 高清音频重建。

0250

AI语音 # Linacodec # 音频分词器

Supertonic

Supertonic 是一款闪电般快速的设备端文本转语音系统，专为极致性能和最小计算开销而设计。基于 ONNX Runtime 驱动，完全在您的设备上运行——无需云端支持、无需 API 调用、无需担心隐私问题。

0480

AI语音 # Supertonic # TTS

Speechify

Speechify 早已以高质量文本转语音（TTS）闻名，帮助用户“听”文章、PDF 和网页。如今，它正从语音输出工具转型为以语音为第一交互方式的 AI 生产力平台。

01290

AI语音 # Speechify # TTS

Cartesia

Cartesia 不仅带来了 SSM 架构驱动的低延迟 TTS、真实场景优化的 STT 模型，更通过 Line 平台解决了语音代理开发的“最后一公里”问题。其核心价值在于：让“实时、自然、可靠”的语音交互不再是技术难题，让开发者无需关注底层模型与基础设施，专注于业务逻辑与用户体验。

0460

AI语音 # AI 语音 # Cartesia # STT 模型

Ai好记

Ai好记是为知识管理设计的多模态知识管理工具。它可以将全网音视频内容统一解析，生成结构化笔记、思维导图和 AI 总结，让碎片化的学习资料像Windows系统中的文件一样，有序可查、逻辑清晰、易于调用。

0320

AI语音 # Ai好记 # 知识管理

Subtle Computing

Subtle Computing

总部位于加州的初创公司 Subtle Computing 正在尝试从根本上解决这个问题：他们不训练更大的语言模型，而是确保输入语音本身足够“干净”。通过一种轻量级的端到端语音隔离模型，他们的技术能在本地设备上实时分离用户语音与环境噪音，显著提升后续语音识别的准确性。

0650

AI语音 # Subtle Computing # 语音隔离模型

Otter.ai

Otter.ai（原名 AISense）是一家美国人工智能公司，专注于语音转文本转录和会议自动化工具。它通过 AI 技术帮助用户记录会议、生成摘要，并提取关键洞见，从而节省时间。根据用户报告，使用该工具可每周节省超过 4 小时。公司使命是让会议更智能高效，适用于销售、招聘、教育和媒体等领域。

0650

AI语音 # Otter.ai # 会议转录

Handy CLI

Handy CLI 是一款面向开发者和高效能用户的本地化语音控制工具，它将语音识别、AI 辅助与键盘自动化结合，让你通过自然语言直接操控电脑操作。

0900

AI语音 # Handy CLI # 语音控制

Huxe

Huxe可以在几秒钟内，将任何内容制作成播客。Huxe 是您的个人音频伴侣，旨在将您关注的内容制作成精美的互动音频。无论您是在准备出发、通勤途中、遛狗，还是只是想远离屏幕——Huxe 都能让您聆听世界。

02460

AI语音 # Huxe # NotebookLM # 播客

Qwen3-ASR-Toolkit

Qwen3-ASR-Toolkit

Qwen3-ASR-Toolkit是一种高级、高性能的 Python 命令行工具包，用于使用 Qwen-ASR API（前身为 Qwen3-ASR-Flash）。此实现通过智能地将长音频/视频文件分割并并行处理，克服了 API 的 3 分钟音频长度限制，从而实现数小时内容的快速转录。

04580

AI语音 # Python 命令行 # Qwen3-ASR-Toolkit # 通义千问

Vocal Image

从“被声音问题困扰的创业者”到“帮助百万人改善沟通的领航者”，Vocal Image的故事证明：真正解决用户痛点的产品，总能找到自己的市场。而AI技术的加持，让“个性化沟通指导”从“少数人的特权”变成“普惠服务”，这或许正是它能在竞争中脱颖而出的核心原因。

01290

AI语音 # AI语音教练 # Vocal Image

GPT-Realtime

gpt-realtime 的发布，不仅是技术迭代，更意味着 OpenAI 的语音能力已具备**企业级稳定性与功能性**。它不再只是一个演示功能，而是可以嵌入真实业务流程的工具。对于开发者而言，Realtime API 的全面开放，加上 SIP、MCP、图像输入等企业级功能的加入，意味着构建复杂语音应用的门槛正在降低。

01080

AI语音 # GPT-Realtime # OpenAI # Realtime API

WhisperLiveKit

WhisperLiveKit 提供了一种轻量、可扩展的解决方案——它将实时语音转文本与说话者分割能力集成于本地运行环境中，无需依赖云端服务，兼顾性能与数据安全。

01560

AI语音 # Whisper # WhisperLiveKit

Palabra AI

Palabra 是一款先进的AI翻译工具，专为实时语音翻译设计。它为视频通话、现场活动、流媒体提供无缝的人工智能翻译和口译服务，并可通过 API 进行集成。可以将其视为为动态沟通需求设计的即时翻译器。

04510

AI语音 # Palabra AI # 实时语音翻译

Pocket FM

Pocket FM 的实践揭示了一个正在成型的新范式：AI 不再只是内容生成工具，而是贯穿创作、优化、本地化与分发的全流程引擎。

01400

AI语音 # CoPilot # Pocket FM

Vogent

Vogent 是一个功能强大的语音 AI 平台，结合无代码工具、先进模型和灵活的 API，为企业和开发者提供快速构建高性能语音代理的解决方案。其 Voicelab 进一步增强了实时语音推理能力，特别适合需要低延迟、类人语音交互的场景。

03790

AI语音 # Vogent # Vogent Voicelab # 语音智能体

NotebookLlaMa

NotebookLlaMa 是一个谷歌NotebookLM的开源替代品，它使用 AI 技术将 PDF 文档转换为对话式、播客风格的音频摘要，特别适合开发者和研究人员探索文档处理和音频生成技术。

01710

AI语音 # AI播客 # NotebookLlaMa # NotebookLM

TEN

TEN Agent 是一个由 TEN 驱动的对话式 AI 代理，集成了 Gemini 2.0 Live、OpenAI Realtime、RTC 等技术。它提供实时的视觉、听觉和语音能力，同时完全兼容 Dify 和 Coze 等流行的工作流平台。

03100

AI语音 # TEN # TEN Agent # TEN Framework

Wispr Flow

Wispr Flow 是一款帮助用户通过语音输入以 4 倍于传统打字速度进行写作的工具，适用于 Mac、Windows 和 iPhone。它的最新产品是 iOS 应用，2025 年 6 月正式推出，允许用户在移动设备上享受高效语音输入体验。功能包括 AI 自动编辑、个人词典、不同应用的语气调整和设备间同步，特别适合专业人士和内容创作者。

05400

AI语音 # Wispr Flow # 语音输入

Fish Audio

Fish Audio是一款生成式AI文本转语音和语音克隆平台，允许用户上传15秒语音片段进行克隆，支持多种场景如故事讲述、广告和有声书。它与AWS、Google Cloud和Nvidia合作，确保技术兼容性。

01,0210

AI语音 # Fish Audio # OpenAudio S1 # TTS

ListenHub

ListenHub 是一款轻量级、支持中文和英语的 NotebookLM 替代工具，基于前沿AI技术，快速生成你感兴趣的专属播客。无论你想听什么，ListenHub 都能用超真实AI人声为你呈现自然对话。相比 NotebookLM，ListenHub 生成内容更加快速，且支持移动端的流畅体验，让你随时随地探索热门话题、同步收藏、轻松制作和收听播客。

07960

AI语音 # ListenHub # NotebookLM # 播客