
你是否经常需要从 YouTube、Bilibili 或抖音视频中提取文字内容?手动记录效率低,而现有工具往往不支持中文、无法生成摘要,或依赖闭源服务。

AI视频转录器 是一款开源项目,专为高效处理音视频内容而设计。它支持 30+ 主流视频平台,结合 Faster-Whisper 语音识别模型 与 GPT-4o 智能优化能力,可自动完成:
- 高精度语音转文字
- 文本错别字修正与语义补全
- 多语言智能摘要生成
- 条件式翻译(自动触发)
所有流程本地可控,支持 Docker 一键部署,是内容创作者、研究者和开发者的理想选择。
核心功能
多平台兼容,广泛覆盖
基于 yt-dlp 引擎,支持包括但不限于以下平台:
- 国际:YouTube、Vimeo、TikTok
- 国内:Bilibili、抖音、优酷、爱奇艺、腾讯视频
- 其他任何
yt-dlp支持的站点(持续扩展)
只需粘贴链接,系统自动解析并下载音视频内容。
高精度语音转写
采用 Faster-Whisper(基于 PyTorch 的 Whisper 加速实现),支持多种模型尺寸:
tiny/base:速度快,适合实时场景small/medium:平衡精度与资源large:最高识别准确率,适合专业用途
自动检测音频语言,适配中文、英文及多语种混合内容。
智能文本优化
原始转录常存在断句、错字、语气词等问题。本工具提供 AI 后处理:
- 自动修正错别字
- 补全不完整句子
- 智能分段(按语义切分段落)
- 去除冗余填充词(如“呃”、“那个”)
✅ 需配置 OpenAI API 密钥以启用完整优化功能
多语言摘要与自动翻译
- 支持生成中文、英文、日文等多语言摘要;
- 当摘要语言 ≠ 转录语言时,自动调用 GPT-4o 进行翻译与润色;
- 输出结构清晰的 Markdown 内容,包含:
- 视频元信息(标题、链接)
- 优化后全文转录
- 精炼摘要(关键点提炼)
移动端友好
响应式界面设计,完美适配手机和平板浏览器,随时随地提交任务、查看结果。
使用流程
- 输入视频链接
在输入框中粘贴目标视频 URL(如 Bilibili 视频页地址)。 - 选择摘要语言
例如:希望用中文阅读英文视频内容?选择“简体中文”。 - 点击“开始”按钮
系统进入处理流程:🔹 阶段 1:视频下载与音轨提取
🔹 阶段 2:Faster-Whisper 转录音频为文本
🔹 阶段 3:AI 文本优化(修正、补全、分段)
🔹 阶段 4:生成所选语言的智能摘要(含必要翻译) - 查看与下载结果
- 实时显示各阶段进度;
- 最终输出为
.md格式文件,可直接导入 Obsidian、Notion 等知识管理工具。
常见问题解答
Q:为什么转录速度慢?
A:速度受视频长度、模型大小和硬件影响。建议长视频使用 tiny 或 base 模型提升效率。
Q:AI 优化功能无法使用?
A:转录优化与摘要依赖 OpenAI API。未配置密钥时,仅提供原始 Whisper 输出和基础摘要。
Q:出现 500 错误或白屏?
A:请检查以下项:
- 是否激活虚拟环境
- 依赖是否安装成功
OPENAI_API_KEY是否设置OPENAI_BASE_URL是否可达(如使用代理)- FFmpeg 是否已安装
- 8000 端口是否被占用
Q:如何处理超长视频?
A:系统支持任意长度视频,但处理时间线性增长。建议搭配较小模型使用。
Q:网络连接失败怎么办?
A:尝试:
- 更换网络环境或启用代理
- 检查 DNS 与防火墙设置
- 验证自定义 OpenAI 端点可达性
- Docker 用户可重启 Docker Desktop 解决网络异常
隐私与数据安全
- 不存储任何视频、音频或转录内容;
- 所有处理在本地完成,数据不出设备;
- 若使用远程 OpenAI API,仅上传文本片段进行优化;
- 开源代码可审计,无隐藏追踪或数据上传行为。
数据统计
相关导航


Mixboard

AI图像生成宽高比计算器

Glucose Buddy(糖小助)

misaka26

Nothing Playground

Kontext Chat






