DAEDAL:无需训练的动态长度生成,释放扩散大模型新潜力

新技术4个月前发布 小马良
178 0

在大语言模型(LLM)领域,扩散型大语言模型(Diffusion Large Language Models, DLLMs)正凭借其并行生成能力全局上下文建模优势,成为传统自回归模型(AR)的有力竞争者。然而,一个长期制约其落地的关键瓶颈始终存在:生成长度必须在推理前静态预设

DAEDAL:无需训练的动态长度生成,释放扩散大模型新潜力

过短的长度限制了复杂任务的表现力,而过长则带来冗余计算,甚至损害性能。如何让 DLLM “自主决定该说多少”?香港中文大学与上海 AI 实验室的研究团队给出了答案——

他们提出了 DAEDAL(Dynamic Adaptive Length Expansion for Diffusion LLMs),一种无需训练、两阶段、自适应长度扩展的去噪策略,首次实现了 DLLM 在推理过程中的动态长度调整。

核心挑战:静态长度的两难困境

传统 DLLMs 在生成前需指定输出 token 数量(如 512)。这一“先定后做”的模式导致:

  • 🔹 长度不足:面对数学推理、长文本摘要等复杂任务,模型“话没说完就被打断”。
  • 🔹 长度过长:简单问答被迫填充冗余 token,浪费算力,甚至引入噪声。
  • 🔹 依赖人工调优:需为不同任务手动配置最优长度,成本高且难以泛化。

DAEDAL 的核心洞察是:模型自身知道它需要多长

研究发现,在去噪过程中,模型对 [EOS](结束符)的预测置信度,能有效反映当前长度是否充足。DAEDAL 正是利用这一内部信号,构建了一套无需额外训练的动态扩展机制。

DAEDAL 的两阶段动态扩展机制

DAEDAL 采用两阶段策略,在不修改模型权重的前提下,实现长度的智能调控。

DAEDAL:无需训练的动态长度生成,释放扩散大模型新潜力

第一阶段:初始长度调整(Initial Length Adjustment)

在正式去噪开始前,DAEDAL 执行一次“快速探针”:

  1. 从一个统一的短初始长度(如 128 tokens)开始。
  2. 检查序列末尾的 [EOS] 预测置信度
  3. 若置信度低,说明模型“觉得不够用”,则向序列末尾添加多个 [MASK] 标记以扩展长度。
  4. 重复此过程,直到 [EOS] 置信度达标或达到最大长度。

✅ 结果:为每个任务分配一个合理的全局起始长度,避免从一开始就“先天不足”。

第二阶段:迭代掩码插入(Iterative Mask Insertion)

在多步去噪过程中,DAEDAL 持续监控每个 [MASK] 位置的预测不确定性:

  1. 若某个 [MASK] 的预测概率分布高度分散(即模型“很犹豫”),则将其标记为“扩展点”。
  2. 将该单个 [MASK] 替换为一组新的 [MASK] 标记(如 3-5 个),为模型提供“讨论空间”。
  3. 在后续去噪步中,这些新插入的 token 将被逐步填充。

✅ 结果:在需要展开论述、填补逻辑间隙的局部区域,实现精细化的动态扩容

核心特点

特性说明
🔄 动态长度调整根据任务复杂度自动决定输出长度,无需预设
⚙️ 无需训练纯推理策略,可直接应用于现有 DLLMs,零训练成本
🧩 两阶段设计全局粗调 + 局部精修,兼顾效率与完整性
📡 利用内部信号基于 [EOS] 置信度和 token 预测不确定性,实现自适应决策
💡 提升有效计算率减少无效 token 生成,提高“有效标记比率”(Effective Ratio)

实验结果:性能与效率双提升

在多个标准基准上的测试表明,DAEDAL 不仅有效,而且高效。

✅ 性能超越固定长度基线

  • 在 GSM8K(数学推理)任务上:
    • DAEDAL 准确率:85.8%
    • 最优固定长度基线:83.8%
    • 提升 2.0 个百分点

这表明,动态扩展能显著增强模型处理复杂任务的能力。

✅ 更高的计算效率

  • DAEDAL 生成的总 token 数(Ntoken)通常低于固定长度基线的最优设置。
  • 同时保持甚至提升任务性能,意味着其有效标记比率(Eratio = 有用输出 / 总计算量)显著更高。
  • 避免了“为 200 token 的回答支付 512 token 的算力”问题。

✅ 强大的自适应能力

  • DAEDAL 生成的响应长度分布更广,能根据问题自然伸缩。
  • 简单问题输出简洁,复杂问题充分展开,行为更接近人类表达习惯。

意义与展望

DAEDAL 的提出,标志着 DLLMs 从“僵化流程”向“智能应答”迈出了关键一步。

它不仅解决了静态长度这一核心痛点,更重要的是:

  • 证明了模型内部信号可用于指导推理过程优化。
  • 提供了一种无需训练即可增强模型能力的通用范式。
  • 缩小了 DLLMs 与自回归模型在生成灵活性上的关键差距。

未来,这一动态生成思想有望扩展至视频、音频等多模态扩散模型,推动生成式 AI 向更高效、更智能的方向发展。

© 版权声明

相关文章

暂无评论

none
暂无评论...