DeepSeek开源高效解码内核FlashMLA:从英伟达Hopper GPU中榨取最大性能 随着全球对高性能计算需求的不断增长,AI模型训练和推理对硬件资源的需求也在快速攀升。然而,由于美国出口限制等原因,中国市场更多依赖于英伟达的“缩减版”H800 GPU(相较于H100功能有所削减)。这... 新技术# DeepSeek# FlashMLA# H800 2周前0290