FFmpeg 8 正式发布：集成 Whisper 实现离线字幕、GPU 加速编码，还兼容古老格式

276 0

知名多媒体处理工具 FFmpeg 近日推出第八个主要版本 ——FFmpeg 8.0，代号 “Huffman”（致敬 1952 年发明的霍夫曼无损压缩算法）。此次更新不仅带来了用户期待的 “自动加字幕” 功能，还通过 Vulkan 实现 GPU 加速编码，并新增对新一代视频编码标准 VVC 的支持，同时兼顾了对多款老旧格式的兼容性，成为兼顾 “前沿功能” 与 “实用适配” 的重要版本。

FFmpeg 8 正式发布：集成 Whisper 实现离线字幕、GPU 加速编码，还兼容古老格式

核心亮点：三大实用功能升级

1. 集成语音识别，一键自动生成视频字幕

FFmpeg 8.0 最受关注的更新，是集成了基于 OpenAI Whisper 模型的本地化语音识别工具 whisper.cpp。这意味着用户无需依赖第三方软件，直接通过 FFmpeg 即可完成 “视频语音提取 — 语音识别 — 字幕生成” 的全流程，且全程离线运行，无需上传数据至云端，兼顾效率与隐私。

无论是制作教程视频、会议记录还是自媒体内容，都能通过简单指令让 FFmpeg 自动生成匹配的字幕文件，大幅降低字幕制作的时间成本。

2. 借助 Vulkan 实现跨平台 GPU 加速编码

此次更新突破了传统编码依赖 CPU 的限制，通过 Vulkan API 实现 GPU 硬件加速，覆盖编码、解码等核心操作。支持的格式包括：

编码：开源视频格式 AV1、FFv1，以及 WebM 旗下的 VP9；
解码：FFv1、VP9，同时支持 Apple ProRes RAW 格式；
特殊功能：处理采用 “通用加密（CENC）” 的 AV1 文件，支持各类 SCC 屏幕内容编码。

值得注意的是，Vulkan 本是为 3D 图形渲染设计的 API（曾被视为 OpenGL 的继任者），此次被用于视频编码后，可在不绑定特定 GPU 型号、驱动或操作系统的前提下，调用不同品牌（NVIDIA、AMD、Intel 等）的 GPU 资源，既提升编码速度，又保证跨平台兼容性。

3. 新增 VVC 编码支持，紧跟视频技术迭代

FFmpeg 8.0 通过英特尔开源的 VAAPI 加速规范，正式支持新一代视频编码标准 VVC（多功能视频编码，ITU H.266），并可处理 Matroska 容器中的 VVC 文件。作为 H.265（HEVC）的继任者，VVC 在相同画质下可比 H.265 节省约 30% 码率，未来将广泛应用于 8K 视频、流媒体等场景。此次支持让 FFmpeg 提前适配了下一代视频生态的需求。

兼顾 “老格式”：适配多款复古多媒体格式

FFmpeg 8.0 并未一味追逐新技术，反而强化了对老旧格式的兼容性，解决了 “老文件无法打开” 的痛点：

RealVideo 6.0：支持解码这款 2015 年前后流行的视频格式，方便用户迁移、转换早期存储的视频文件；
JPEG-XL：新增对 JPEG-XL 动画格式的支持 —— 尽管谷歌曾于 2022 年从 Chromium 中移除该格式支持，但 FFmpeg 仍选择保留对这一高效图像格式的适配；
音频格式：可解码 G.728 低带宽语音格式，以及三洋 ICR-1000、ICR-B150 等老式数字录音机使用的 LD-ADPCM 格式 WAV 文件。

关于 FFmpeg：从 “分叉争议” 到 “多媒体基石”

FFmpeg（全称 “Fast Forward MPEG”）作为开源多媒体工具的标杆，曾经历过一段动荡期：2011 年前后，项目团队因分歧衍生出竞争项目 LibAV，甚至 Debian 等系统曾一度切换至 LibAV；但由于技术路线与社区支持问题，LibAV 于 2020 年停止维护，FFmpeg 重新成为行业唯一选择。

如今，FFmpeg 已成为全球多媒体生态的 “隐形基石”，维基百科列出的依赖项目涵盖视频编辑软件、流媒体平台、浏览器等多个领域。开发者 Drew deVault 曾在《赞美 ffmpeg》一文中评价：“几乎所有你接触到的数字媒体，背后都有 FFmpeg 的影子。”