新Cursor推出MoE推理加速方法Warp Decode:翻转并行轴,MoE 推理提速 1.84 倍的硬件级优化在英伟达 Blackwell GPU 上,针对小批量(Small Batch)自回归解码场景,一种名为 Warp Decode 的新内核设计彻底改变了混合专家(MoE)模型的推理方式。通过翻转并行性轴...新技术# Cursor# Warp Decode# 推理加速5小时前050