字节跳动发布统一加速多模态理解与生成的新框架Hyper-Bagel

图像模型6个月前发布小马良

297 0

随着多模态大模型在图文理解、文本到图像生成、图像编辑等任务中表现日益强大，其高昂的推理成本也逐渐成为落地瓶颈。传统的自回归解码与扩散去噪过程需要大量迭代计算，在长上下文或多轮交互场景下响应迟缓。

为此，字节跳动提出 Hyper-Bagel ——一个面向统一多模态系统的高效推理加速框架，同时提升理解和生成任务的速度，而无需牺牲输出质量。

项目主页：https://hyper-bagel.github.io

该框架已在内部多个产品线验证，显著降低服务延迟与算力消耗，支持更流畅的交互式应用体验。

字节跳动发布统一加速多模态理解与生成的新框架Hyper-Bagel

核心挑战：多模态推理的“速度墙”

现代多模态模型通常融合文本、图像等多种标记（tokens），在处理复杂指令时上下文长度迅速增长。无论是：

自回归生成中的逐 token 解码，
还是扩散模型中数十步的去噪过程，

都会带来巨大的计算开销，限制了其在实时系统中的部署能力。

Hyper-Bagel 正是为了打破这一“速度墙”而生。

技术方案：分而治之，双轨加速

Hyper-Bagel 采用“分而治之”策略，针对不同任务类型设计专用加速机制：

1. 多模态理解加速：推测解码（Speculative Decoding）

为加速自回归解码过程，Hyper-Bagel 引入轻量级草稿模型（Draft Model）进行快速预测：

草稿模型以较低计算代价连续生成多个候选 token；
主模型并行验证这些预测结果；
成功则批量接受，失败则截断重校。

这一方法将原本串行的内存访问瓶颈转化为可并行的计算问题，在多模态问答、视觉推理等任务中实现 2倍以上推理加速，且无精度损失。

字节跳动发布统一加速多模态理解与生成的新框架Hyper-Bagel

2. 多模态生成加速：多阶段知识蒸馏

针对扩散模型生成慢的问题，Hyper-Bagel 构建了一个五阶段蒸馏流程，训练极低步数（NFE）的学生模型，逼近高步数教师模型的表现。

蒸馏五个阶段详解：

阶段	方法	目标
① CFG 蒸馏	将文本/图像引导参数嵌入前向传播	支持可控生成
② TSCD（轨迹分割一致性蒸馏）	使用多头鉴别器 + 对抗损失	增强结构完整性
③ DMDO（分布匹配通过ODE）	利用常微分方程对齐师生轨迹	避免图像过度平滑
④ ADP（对抗性扩散预训练）	基于修正流（Rectified Flow）进行对抗训练	提升1-NFE初始质量
⑤ ReFL（奖励反馈学习）	引入基于VLM的奖励模型模拟人类偏好	优化语义保真度

通过这一系统化蒸馏流程，学生模型仅需极少推理步数即可生成高质量结果。

性能表现：从“分钟级”到“秒级”响应

Hyper-Bagel 在多个基准测试中展现出卓越的加速能力：

任务	模型配置	加速比	输出质量
文本到图像生成	6-NFE vs 100-NFE	16.67×	与基线相当（GenEval）
图像编辑	6-NFE vs 132-NFE	22×	在英中文数据集均超越基线（GEdit-Bench）
多模态理解	推测解码启用	>2×	准确率无损

更进一步，团队开发出 1-NFE 模型（单步去噪），可在 毫秒级完成图像生成或编辑，支持近实时交互，适用于：

即时风格迁移
快速对象移除/替换
交互式创作工具

尽管细节保真度略有妥协，但整体语义连贯性和可用性仍具竞争力。

字节跳动发布统一加速多模态理解与生成的新框架Hyper-Bagel

实际意义：让复杂多模态交互变得即时

Hyper-Bagel 不只是一个实验室成果，更是面向生产环境的工程突破。它的核心价值在于：

✅ 统一架构：一套框架覆盖理解与生成；
✅ 无损加速：在关键任务中保持原始模型性能；
✅ 支持实时交互：为下一代 AI 创作工具提供低延迟基础；
✅ 高性价比部署：大幅降低 GPU 成本与能耗。

这意味着，未来用户可以在聊天界面中“边说边看图”，或对图像进行“拖拽式编辑+AI补全”，整个过程如本地操作般流畅。

图像模型 # Hyper-Bagel # 字节跳动

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Kandinsky 5.0 全系列开源：190亿参数视频Pro+轻量版，支持中俄双语+5-10秒HD生成

Kandinsky 5.0 全系列开源：190亿参数视频Pro+轻量版，支持中俄双语+5-10秒HD生成

图像模型视频模型 # Kandinsky 5.0

3个月前

01800

用文生图的新型规模感知变换器SWITTI：基于现有的下一代规模预测自回归（AR）模型

用文生图的新型规模感知变换器SWITTI：基于现有的下一代规模预测自回归（AR）模型

图像模型 # AR模型 # SWITTI

1年前

03960

Fal.ai平台推出了新一代GAN 图像放大工具AuraSR的第二版AuraSR-v2

Fal.ai平台推出了新一代GAN 图像放大工具AuraSR的第二版AuraSR-v2

图像模型 # AuraSR # AuraSR-v2 # Fal.ai

1年前

07410

新型图像编码器FlexTok：能够将二维图像重新采样为长度可变的一维离散标记（token）序列

新型图像编码器FlexTok：能够将二维图像重新采样为长度可变的一维离散标记（token）序列

图像模型 # FlexTok # 图像编码器

11个月前

04360

暂无评论

none

暂无评论...