Qwen3-30B-A3B-2507 和 Qwen3-235B-A22B-2507 现支持超长上下文——高达100万个令牌!

4个月前 小马良
83 0

Qwen3-30B-A3B-2507 和 Qwen3-235B-A22B-2507 现支持超长上下文——高达100万个令牌!

技术支持:

  • 双块注意力(DCA)——一种长度外推方法,将长序列分割成可管理的块,同时保持全局连贯性。
  • MInference ——稀疏注意力,通过聚焦于关键令牌交互来减少开销。

💡 这些创新提升了生成质量和推理速度,在接近100万个令牌的序列上实现高达3倍的性能提升。
✅ 完全兼容 vLLM 和 SGLang,以实现高效部署。

Qwen3-30B-A3B-2507 和 Qwen3-235B-A22B-2507 现支持超长上下文——高达100万个令牌!

暂无评论

none
暂无评论...