SambaNova宣布其平台实现最快速的DeepSeek-R1 671B模型推理速度

432 0

在AI领域，训练大语言模型（LLM）通常依赖于英伟达CUDA技术，但当谈到推理时，选择却变得多样化。SambaNova作为一家专注于AI芯片和大语言模型推理服务的初创公司，正以惊人的速度和效率改变这一领域的格局。

SambaNova宣布在其平台SambaNova Cloud上部署了满血版DeepSeek-R1 671B模型，实现了每秒198个token（t/s）的运行速度，远超其他平台的表现。

突破性性能：SambaNova重新定义推理效率

DeepSeek-R1 671B是一款拥有6710亿参数的超大规模语言模型，尽管其训练成本已降低10倍，但由于推理阶段需要显著更多的计算资源，导致生产成本高、效率低，限制了其广泛应用。而SambaNova通过其专有的SN40L可重构数据流单元（RDU）芯片解决了这一难题。

硬件需求大幅缩减：原本需要40个GPU机架（320个最新GPU）才能运行DeepSeek-R1，现在仅需1个机架（16个RDU）即可完成。
速度与效率提升：相比最新GPU，SambaNova的解决方案速度快3倍，效率高5倍。
经济高效的推理能力：SambaNova不仅大幅降低了推理成本，还为开发者和企业解锁了实时、大规模的推理能力。

SambaNova首席执行官兼联合创始人Rodrigo Liang表示：“得益于SN40L RDU芯片的强大性能，SambaNova成为运行DeepSeek最快的平台，每秒可处理198个token。到今年年底，我们将提供100倍于当前全球容量的DeepSeek-R1，彻底改变AI推理的游戏规则。”

行业专家认可：加速推理的重要性

DeepLearning.AI创始人、AI Fund管理合伙人吴恩达博士对SambaNova的技术给予了高度评价：“能够在SambaNova的平台上运行完整的DeepSeek-R1 671B模型（而非简化版），对开发者来说是一个真正的突破。像R1这样的推理模型需要生成大量token才能产生高质量输出，因此加速它们尤为重要。SambaNova的高性能平台将使这些模型在对延迟敏感的应用场景中发挥更大作用。”

Artificial Analysis联合创始人George Cameron补充道：“我们独立测试了SambaNova云端部署的完整6710亿参数DeepSeek-R1混合专家模型，其输出速度超过每秒195个token，这是我们测量过的DeepSeek-R1最快输出速度。高输出速度对推理模型尤为重要，因为这直接影响响应质量和用户体验。”

解决DeepSeek的最大挑战：大规模推理

尽管DeepSeek-R1通过将训练成本降低十倍彻底改变了AI领域，但其推理阶段的高计算需求一直是一个重大障碍。基于GPU的传统解决方案效率低下，使得大多数开发者无法充分利用DeepSeek-R1的潜力。

SambaNova凭借其专有的数据流架构和三层内存设计，彻底解决了这一问题。其SN40L RDU芯片不仅能够高效运行DeepSeek-R1，还大幅降低了硬件需求和推理成本。

SambaNova首席执行官Rodrigo Liang总结道：“DeepSeek-R1是目前最先进的AI模型之一，但其潜力因GPU的低效而受到限制。今天，我们通过大幅降低推理成本，并将硬件需求从40个机架缩减至仅1个机架，真正释放了DeepSeek-R1的全部潜力。”

未来展望：100倍于当前全球容量

SambaNova正在快速扩展其容量，以满足不断增长的市场需求。到今年年底，公司将提供100倍于当前全球容量的DeepSeek-R1，使其成为最高效的企业级推理模型解决方案。

SambaNova首席架构师Sumti Jairath解释道：“DeepSeek-R1与我们的三层内存架构完美契合。作为迄今为止发布的最大开源大型语言模型，R1需要大量内存才能运行。SambaNova独特的数据流架构使我们能够高效运行该模型，在不久的将来实现单个机架每秒20,000个token的总吞吐量——这是传统GPU无法企及的水平。”