腾讯开源混元视频音效生成模型HunyuanVideo-Foley：端到端TV2A模型，为创作者打造高保真音视频体验

93 0

腾讯今天正式开源 HunyuanVideo-Foley —— 一个端到端的文本-视频-音频（Text-Video-to-Audio, TV2A）生成模型，专注于为视频内容自动生成高保真、语义对齐的音效。

它不是简单的背景音乐叠加，而是能让一段无声的海滩视频，精准“响起”海浪拍岸、海鸥鸣叫的声音；让动画角色的脚步声，随着动作节奏自然变化。这种能力，正是当前影视、游戏、短视频创作中亟需的“声音还原”技术。

HunyuanVideo-Foley 的目标很明确：解决视频生成中“有画无声”或“声画错位”的痛点，为创作者提供专业级、可控制、高同步的音效生成工具。

HunyuanVideo-Foley的核心价值，在于打破传统音频生成与视频内容脱节的痛点，为不同场景的创作提供“音视同步”的专业级解决方案：

短视频创作：无需额外录制或寻找音效素材，模型可根据短视频画面（如美食制作、旅行风景）与文本描述（如“煎蛋滋滋声”“风吹树叶沙沙响”），快速生成贴合内容的音频，提升作品感染力；
电影与广告制作：针对复杂镜头（如动作场景、自然景观），能精准捕捉从主要主体（如人物对话、汽车引擎声）到细微背景元素（如远处鸟鸣、脚步声回音）的音效，减少后期配音的时间成本；
游戏开发：为游戏场景（如奇幻地图、战斗画面）生成沉浸式音景，让玩家在视觉交互的同时，通过声音感知场景氛围，增强游戏体验。

为实现“高保真、强对齐、广适配”的音频生成效果，HunyuanVideo-Foley在技术层面实现了三大核心突破：

模型基于10万小时多模态数据集训练，数据集涵盖自然景观、城市生活、动画短片、游戏场景等多种类型。这使得模型能适应不同风格的视频内容，无论是静谧的森林画面，还是热闹的赛事场景，都能生成具有语义感知的音景，避免“千片一音”的局限。

传统V2A生成常出现“重视觉轻文本”或“重文本轻视觉”的问题，导致音频与内容脱节。HunyuanVideo-Foley创新采用多模态扩散变换器（MMDiT）架构，通过双流设计平衡视频视觉线索与文本语义信息：

为达到专业级音频质量，模型采用“REPA损失函数+音频变分自编码器（Audio VAE）”的技术组合：

REPA损失函数：通过将扩散模型的隐藏嵌入与预训练自监督音频特征对齐，提升音频生成的稳定性，减少失真；
48kHz音频变分自编码器：自主研发的高采样率编码器，能精准重构音效、音乐和人声，有效消除传统生成中常见的噪声、卡顿与不一致性，让音频质量达到专业制作标准。

HunyuanVideo-Foley的端到端能力，依赖于从数据管道到模型生成的全流程优化，具体可分为四大模块：

TV2A任务对数据集质量要求极高，模型通过多阶段过滤流程构建训练数据：

在融合阶段，MMDiT架构通过两大核心机制实现多模态协同：

在音频生成过程中，通过表示对齐（REPA）策略进一步优化：将单流音频扩散模型（DiT）块的隐藏状态，与预训练自监督音频特征对齐，确保生成的音频在语义（如“雨声”对应“下雨画面”）和声学（如音质、音量）上均与内容匹配。

在三大权威数据集测试中，HunyuanVideo-Foley的表现全面超越现有开源模型，具体成绩如下：

测试数据集	关键优势指标	表现亮点
Kling-Audio-Eval	分布匹配（FD、KL）、音频质量（PQ）、视觉-语义对齐（IB）、时间对齐（DeSync）	所有指标均优于现有方法，实现“全维度领先”
VGGSound-Test	音频质量（IS、PQ）、视觉-语义对齐（IB）	音频质量表现突出，视觉-语义对齐保持最优
MovieGen-Audio-Bench	客观指标（PQ、DeSync、IB）、主观评估	几乎所有指标均为最佳，得到主观体验认可