AI语音

共 44 篇网址

TTSMaker

TTSMaker是一款在线文本转语音工具，也称为AI语音生成器，它可以将文本转换为音频，并且可以播放或下载音频文件。

06,8500

AI语音 # AI配音 # TTSMaker # 文本转语音

NaturalReader

NaturalReader 是一款功能强大、易于使用的文本转语音工具，适合各种场景下的阅读需求。无论您是希望节省时间的学生、需要无障碍支持的读者，还是寻求高质量语音内容的创作者，NaturalReader 都能为您提供卓越的体验。

03,1350

AI语音 # NaturalReader # TTS # 文本转语音

AI Speaker

AI Speaker 是一款基于微软 TTS 服务的在线文字转语音（TTS）工具，能够将文字即时转换为自然流畅的语音，支持100多种语言和600多种AI语音。

01,5001

AI语音 # AI Speaker # TTS # 微软

ElevenLabs

ElevenLabs 成立于 2022 年，总部位于英国和波兰，致力于利用 AI 技术生成自然、富有表现力的语音。它的平台支持从文本到语音的转换、语音克隆和多语言配音，服务于各种需求。

01,0610

AI语音 # AI语音 # ElevenLabs # 语音克隆

Fish Audio

Fish Audio是一款生成式AI文本转语音和语音克隆平台，允许用户上传15秒语音片段进行克隆，支持多种场景如故事讲述、广告和有声书。它与AWS、Google Cloud和Nvidia合作，确保技术兼容性。

01,0210

AI语音 # Fish Audio # OpenAudio S1 # TTS

录咖

录咖以其强大的 AI 技术和丰富的功能，为音视频创作和处理带来了前所未有的便捷体验。无论你是创作者、教育工作者还是普通用户，录咖都能成为你得力的助手。

08460

AI语音 # AI音频处理 # 录咖

海螺语音

MiniMax旗下的海螺AI上线了基于T2A-01系列语音模型的“海螺语音”。这一更新为用户带来了更加自然、流畅的超拟人人声体验。

08120

AI语音 # MiniMax # TTS # 海螺AI

ListenHub

ListenHub 是一款轻量级、支持中文和英语的 NotebookLM 替代工具，基于前沿AI技术，快速生成你感兴趣的专属播客。无论你想听什么，ListenHub 都能用超真实AI人声为你呈现自然对话。相比 NotebookLM，ListenHub 生成内容更加快速，且支持移动端的流畅体验，让你随时随地探索热门话题、同步收藏、轻松制作和收听播客。

07960

AI语音 # ListenHub # NotebookLM # 播客

SubEasy

SubEasy 是视频创作者的得力助手，它通过强大的字幕生成、翻译和优化功能，帮助创作者节省时间，提升效率，从而更专注于内容创作本身。无论是精准的字幕生成、智能的润色与重排，还是多语言翻译和自定义设计，SubEasy 都为创作者提供了全方位的支持。

07790

AI语音 # AI字幕转录 # SubEasy # 字幕翻译

Zonos

Zonos模型基于约 20 万小时的语音数据进行训练，涵盖中性和富有表现力的语音模式。虽然主要数据集为英语内容，但也包含大量中文、日语、法语、西班牙语和德语的语音数据，从而支持多语言合成。

07690

AI语音 # Zonos # Zyphra # 开源TTS模型

OpenAI音频模型

OpenAI正式推出了全新的音频模型，涵盖了文本转语音（Text-to-Speech, TTS）和语音转文本（Speech-to-Text, STT）两大核心功能，为语音交互领域带来了重大突破。

06830

AI语音 # gpt-4o-mini-transcribe # gpt-4o-mini-tts # gpt-4o-transcribe

Podcastle

播客录制和编辑平台 Podcastle 正式发布了其名为 Asyncflow v1.0 的 AI 模型，正式加入 AI 驱动的文本转语音（TTS）领域。该平台不仅为用户提供了超过 450 个 AI 声音，还计划推出面向开发者的 API，允许开发者将文本转语音模型直接集成到他们的应用程序中。

06190

AI语音 # Asyncflow # Podcastle # TTS

Hedra

Hedra 是一个人工智能创作实验室，通过尖端的视频模型，赋能人类讲故事的能力。只需几秒钟，即可将您的角色变成富有表现力的说话者、歌手和说唱歌手。

06190

AI语音 # Hedra # 对口型 # 数字人

Krisp

Krisp的AI口音转换功能为跨语言沟通提供了一种新的解决方案。通过实时将说话者的口音转换为美国英语，该工具能够有效减少沟通障碍，提高沟通效率。尽管目前该技术主要针对印度英语口音，但其未来扩展计划显示了其巨大的应用潜力。

06030

AI语音 # Krisp # 印度口音 # 口音转换

Gladia

法国AI公司Gladia发布语音转文字模型Solaria，Solaria都能提供无可比拟的多语言支持基础，且质量与速度毫不妥协。凭借英语等常见语言94%的词准确率（WAR）行业标杆、独家支持的100+种语言（其中42种为Gladia独有）、以及270毫秒超低延迟，Solaria正在为AI语音交互树立全新标准。

05940

AI语音 # Gladia # Solaria # 语音识别模型

Wispr Flow

Wispr Flow 是一款帮助用户通过语音输入以 4 倍于传统打字速度进行写作的工具，适用于 Mac、Windows 和 iPhone。它的最新产品是 iOS 应用，2025 年 6 月正式推出，允许用户在移动设备上享受高效语音输入体验。功能包括 AI 自动编辑、个人词典、不同应用的语气调整和设备间同步，特别适合专业人士和内容创作者。

05400

AI语音 # Wispr Flow # 语音输入

ElevenReader

AI 语音初创公司 ElevenLabs 旗下的文本转语音（TTS）应用 ElevenReader是一款强大的移动文本转语音应用程序，旨在帮助用户随时随地聆听任何文本内容。

05240

AI语音 # ElevenLabs # ElevenReader # GenFM

Hume AI

Hume AI 是一家专注于先进 AI 语音技术的研究实验室和技术公司，使命是确保AI的开发服务于人类目标和情感福祉。通过构建能够以共情方式进行交流并学习如何让人们感到快乐的 AI 模型，Hume 正在重新定义语音交互的未来。

04940

AI语音 # AI语音 # EVI2 # Hume AI

Qwen3-ASR-Toolkit

Qwen3-ASR-Toolkit

Qwen3-ASR-Toolkit是一种高级、高性能的 Python 命令行工具包，用于使用 Qwen-ASR API（前身为 Qwen3-ASR-Flash）。此实现通过智能地将长音频/视频文件分割并并行处理，克服了 API 的 3 分钟音频长度限制，从而实现数小时内容的快速转录。

04580

AI语音 # Python 命令行 # Qwen3-ASR-Toolkit # 通义千问

Palabra AI

Palabra 是一款先进的AI翻译工具，专为实时语音翻译设计。它为视频通话、现场活动、流媒体提供无缝的人工智能翻译和口译服务，并可通过 API 进行集成。可以将其视为为动态沟通需求设计的即时翻译器。

04510

AI语音 # Palabra AI # 实时语音翻译

Vogent

Vogent 是一个功能强大的语音 AI 平台，结合无代码工具、先进模型和灵活的 API，为企业和开发者提供快速构建高性能语音代理的解决方案。其 Voicelab 进一步增强了实时语音推理能力，特别适合需要低延迟、类人语音交互的场景。

03790

AI语音 # Vogent # Vogent Voicelab # 语音智能体

TEN

TEN Agent 是一个由 TEN 驱动的对话式 AI 代理，集成了 Gemini 2.0 Live、OpenAI Realtime、RTC 等技术。它提供实时的视觉、听觉和语音能力，同时完全兼容 Dify 和 Coze 等流行的工作流平台。

03100

AI语音 # TEN # TEN Agent # TEN Framework

Huxe

Huxe可以在几秒钟内，将任何内容制作成播客。Huxe 是您的个人音频伴侣，旨在将您关注的内容制作成精美的互动音频。无论您是在准备出发、通勤途中、遛狗，还是只是想远离屏幕——Huxe 都能让您聆听世界。

02460

AI语音 # Huxe # NotebookLM # 播客

NotebookLlaMa

NotebookLlaMa 是一个谷歌NotebookLM的开源替代品，它使用 AI 技术将 PDF 文档转换为对话式、播客风格的音频摘要，特别适合开发者和研究人员探索文档处理和音频生成技术。

01710

AI语音 # AI播客 # NotebookLlaMa # NotebookLM

WhisperLiveKit

WhisperLiveKit 提供了一种轻量、可扩展的解决方案——它将实时语音转文本与说话者分割能力集成于本地运行环境中，无需依赖云端服务，兼顾性能与数据安全。

01560

AI语音 # Whisper # WhisperLiveKit

Pocket FM

Pocket FM 的实践揭示了一个正在成型的新范式：AI 不再只是内容生成工具，而是贯穿创作、优化、本地化与分发的全流程引擎。

01400

AI语音 # CoPilot # Pocket FM

Speechify

Speechify 早已以高质量文本转语音（TTS）闻名，帮助用户“听”文章、PDF 和网页。如今，它正从语音输出工具转型为以语音为第一交互方式的 AI 生产力平台。

01290

AI语音 # Speechify # TTS

Vocal Image

从“被声音问题困扰的创业者”到“帮助百万人改善沟通的领航者”，Vocal Image的故事证明：真正解决用户痛点的产品，总能找到自己的市场。而AI技术的加持，让“个性化沟通指导”从“少数人的特权”变成“普惠服务”，这或许正是它能在竞争中脱颖而出的核心原因。

01290

AI语音 # AI语音教练 # Vocal Image

GPT-Realtime

gpt-realtime 的发布，不仅是技术迭代，更意味着 OpenAI 的语音能力已具备**企业级稳定性与功能性**。它不再只是一个演示功能，而是可以嵌入真实业务流程的工具。对于开发者而言，Realtime API 的全面开放，加上 SIP、MCP、图像输入等企业级功能的加入，意味着构建复杂语音应用的门槛正在降低。

01080

AI语音 # GPT-Realtime # OpenAI # Realtime API

Handy CLI

Handy CLI 是一款面向开发者和高效能用户的本地化语音控制工具，它将语音识别、AI 辅助与键盘自动化结合，让你通过自然语言直接操控电脑操作。

0900

AI语音 # Handy CLI # 语音控制