ParaAttention

共 1 篇文章

排序

发布更新浏览点赞

ParaAttention：通过上下文并行注意力机制，使用多个GPU加速FLUX和Mochi模型的推理

ParaAttention：通过上下文并行注意力机制，使用多个GPU加速FLUX和Mochi模型的推理

ParaAttention是一种创新的上下文并行注意力机制，旨在通过多个GPU加速FLUX和Mochi模型的推理。通过支持torch.compile和多种并行策略，ParaAttention提供了高效...

新技术 # ParaAttention # 推理加速

1年前

04120