Qwen3.5系列模型在基准测试中的对比

主要结论：122B、35B模型，尤其是27B模型在很多方面仍保持着旗舰模型的性能水平，而2B和0.8B模型在长上下文理解和智能体任务上的表现则明显下滑较多。