公告

Qwen3-30B-A3B-2507 和 Qwen3-235B-A22B-2507 现支持超长上下文——高达100万个令牌！

8个月前小马良

134 00

Qwen3-30B-A3B-2507 和 Qwen3-235B-A22B-2507 现支持超长上下文——高达100万个令牌！

模型地址：https://huggingface.co/Qwen

技术支持：

双块注意力（DCA）——一种长度外推方法，将长序列分割成可管理的块，同时保持全局连贯性。
MInference ——稀疏注意力，通过聚焦于关键令牌交互来减少开销。

💡 这些创新提升了生成质量和推理速度，在接近100万个令牌的序列上实现高达3倍的性能提升。
✅ 完全兼容 vLLM 和 SGLang，以实现高效部署。

Qwen3-30B-A3B-2507 和 Qwen3-235B-A22B-2507 现支持超长上下文——高达100万个令牌！

暂无评论

none

暂无评论...