Qwen3-30B-A3B-2507 和 Qwen3-235B-A22B-2507 现支持超长上下文——高达100万个令牌!
Qwen3-30B-A3B-2507 和 Qwen3-235B-A22B-2507 现支持超长上下文——高达100万个令牌!
技术支持:
- 双块注意力(DCA)——一种长度外推方法,将长序列分割成可管理的块,同时保持全局连贯性。
- MInference ——稀疏注意力,通过聚焦于关键令牌交互来减少开销。
💡 这些创新提升了生成质量和推理速度,在接近100万个令牌的序列上实现高达3倍的性能提升。
✅ 完全兼容 vLLM 和 SGLang,以实现高效部署。

暂无评论...











