daVinci-MagiHuman:单流架构重塑音视频生成,1080p 仅需 38 秒的开源新标杆

在 AI 生成内容(AIGC)领域,音视频联合生成一直被视为“皇冠上的明珠”。然而,现有的开源方案往往陷入两难:要么采用复杂的多流架构导致推理缓慢、难以优化,要么为了速度牺牲了人物表情与语音的自然度。

daVinci-MagiHuman:单流架构重塑音视频生成,1080p 仅需 38 秒的开源新标杆

SII-GAIR 与 Sand.ai 联合发布了 daVinci-MagiHuman —— 一款基于单流 Transformer 架构的开源基础模型。它摒弃了繁琐的交叉注意力机制,仅用统一的自注意力网络即可同时处理文本、视频和音频。实测数据显示,该模型在单张 H100 GPU 上生成 5 秒 1080p 高清音视频仅需 38.4 秒,且在人类盲测中以 80% 的胜率碾压竞品 Ovi 1.1,重新定义了开源拟人音视频生成的速度与质量上限。

  • GitHub:https://github.com/GAIR-NLP/daVinci-MagiHuman
  • 模型:https://huggingface.co/GAIR/daVinci-MagiHuman
  • Demo:https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman

核心突破:极简即极速

daVinci-MagiHuman 的最大亮点在于其**“简约即速度”**的设计哲学。它证明了复杂的任务不需要复杂的架构。

1. 真正的单流统一架构

  • 去繁就简:不再使用独立的声音流、视频流或交叉注意力模块。所有模态(文本 Token、参考图像潜变量、带噪音视频/音频 Token)被拼接成一个统一的序列。
  • 参数共享:模型主体是一个 150 亿参数、40 层 的 Transformer。其中中间 32 层 完全共享参数,仅在首尾各 4 层使用特定模态的投影(“三明治架构”),实现了深度的多模态融合。
  • 无时间步嵌入:创新性地移除了显式的时间步(Timestep)嵌入,模型直接从输入潜变量中推断去噪状态,进一步简化了计算图。

2. 卓越的拟人表现

  • 音画完美同步:生成的语音口型、面部微表情(如微笑时的眼角皱纹)与肢体动作高度协调,彻底解决了“对口型”难题。
  • 多语言支持:原生支持中文(含粤语)、英语、日语、韩语、德语、法语,语音清晰度高,词错误率(WER)低至 14.60%,远超同类开源模型。

3. 极致的推理速度

通过一系列工程优化,daVinci-MagiHuman 实现了惊人的生成效率:

  • 256p: 2.0 秒
  • 540p: 8.0 秒
  • 1080p: 38.4 秒
    (基于单张 NVIDIA H100 GPU,生成 5 秒时长内容)
daVinci-MagiHuman:单流架构重塑音视频生成,1080p 仅需 38 秒的开源新标杆

技术解密:如何实现又快又好?

架构创新:三明治与门控机制

  • 三明治架构 (Sandwich Architecture):前 4 层和后 4 层负责模态特有的特征提取与重建,中间 32 层作为通用的“大脑”进行跨模态推理。这种设计既保留了模态特性,又最大化了参数利用率。
  • 按头门控 (Per-Head Gating):在每个注意力头上引入可学习的 Sigmoid 门控标量,显著提升了训练稳定性,防止多模态信号相互干扰。

推理加速四大引擎

为了将速度推向极限,团队引入了四项关键技术:

  1. 潜变量空间超分 (Latent Space Super-Resolution):采用“先生成低分辩率潜变量,再在潜空间细化”的两阶段策略,避免了昂贵的 VAE 编解码往返,大幅降低计算量。
  2. Turbo VAE 解码器:重新训练了一个轻量级解码器,专门针对推理速度优化,显著减少了最后一步的解码耗时。
  3. 全图编译 (MagiCompiler):自研编译器融合了跨层算子,减少内存访问开销,带来约 1.2 倍 的额外加速。
  4. DMD-2 蒸馏技术:将去噪步数从传统的 20-50 步压缩至仅需 8 步,且几乎无损画质。

性能实测:全面超越 SOTA

研究团队在超过 2000 次人类成对评估中,将 daVinci-MagiHuman 与当前主流开源模型进行了对比:

对比维度指标daVinci-MagiHumanOvi 1.1LTX 2.3
视觉质量评分 (↑)4.804.734.76
文本对齐评分 (↑)4.184.104.12
语音清晰度词错误率 (↓)14.60%40.45%19.23%
人类偏好vs Ovi 1.1 胜率80.0%--
人类偏好vs LTX 2.3 胜率60.9%--

注:词错误率(WER)越低代表语音越清晰;人类偏好胜率越高代表生成内容越自然。

开源生态:全套栈开放

daVinci-MagiHuman 不仅开源了权重,更开放了完整的工具链,极大地降低了社区的使用门槛:

  • 基础模型:15B 参数完整版。
  • 蒸馏模型:8 步快速推理版。
  • 超分模型:用于提升分辨率的专用模型。
  • 推理代码:包含 MagiCompiler 优化在内的完整推理脚本。
© 版权声明

相关文章

暂无评论

none
暂无评论...