DeepSeek开源周第五弹:高性能分布式文件系统 3FS和Smallpond 数据处理框架

新技术1周前发布 小马良
33 0

在开源周的第五天,DeepSeek 正式发布了 3FS(Fire-Flyer File System)。这是一个专为现代 SSD 和 RDMA 网络设计的并行文件系统,旨在为深度学习等数据密集型应用提供强大的数据访问性能支持。

DeepSeek开源周第五弹:高性能分布式文件系统 3FS和Smallpond 数据处理框架

3FS(Fire-Flyer File System)

3FS 性能亮点

  • 集群高吞吐:在 180 节点集群中,3FS 实现了高达 6.6 TiB/s 的聚合读取吞吐量。
  • 基准测试优异:在 25 节点集群的 GraySort 基准测试中,3FS 达到了 3.66 TiB/min 的吞吐量。
  • 单节点高性能:每个客户端节点的 KVCache 查找峰值吞吐量超过 40 GiB/s。
  • 架构先进:3FS 采用去中心化架构,并具备强一致性语义。

3FS 核心特性

性能与可用性
  • 解耦架构:结合数千个 SSD 的吞吐量和数百个存储节点的网络带宽,使应用程序能够以位置无关的方式访问存储资源。
  • 强一致性:通过带有分配查询的链式复制(CRAQ)实现强一致性,简化应用程序代码。
  • 文件接口:基于事务性键值存储(如 FoundationDB)开发无状态元数据服务,提供广泛使用的文件接口,无需学习新的存储 API。
多样化工作负载支持
  • 数据准备:高效管理数据分析管道的输出,组织层次化目录结构。
  • 数据加载器:通过随机访问训练样本,消除预取或打乱数据集的需求。
  • 检查点:支持大规模训练的高吞吐量并行检查点。
  • 推理缓存(KVCache):提供高吞吐量和显著更大的容量,作为 DRAM 缓存的经济高效替代方案。

性能测试

  • 峰值吞吐量:在由 180 个存储节点组成的集群中,每个节点配备 2×200Gbps InfiniBand NIC 和 16 个 14TiB NVMe SSD,3FS 的聚合读取吞吐量达到约 6.6 TiB/s。
  • GraySort 基准测试:在 25 个存储节点和 50 个计算节点的集群中,3FS 对 110.5 TiB 数据进行排序,平均吞吐量达到 3.66 TiB/min。
  • KVCache 性能:KVCache 的峰值读取吞吐量达到 40 GiB/s,显著提升了推理过程中的效率。

3FS 应用场景

3FS 是一款高性能分布式文件系统,专为应对 AI 训练和推理工作负载的挑战而设计。它利用现代 SSD 和 RDMA 网络提供共享存储层,简化分布式应用程序的开发。其核心优势在于高性能、强一致性和易用性,能够有效支持各种 AI 工作负载,包括数据准备、数据加载、检查点设置和推理缓存。
在 DeepSeek 的 V3/R1 版本中,3FS 已被广泛应用于以下关键环节:

  • 训练数据预处理:高效组织和管理大量中间输出。
  • 数据集加载:通过随机访问训练样本,消除预取或打乱数据集的需求。
  • 检查点保存与重新加载:支持大规模训练的高吞吐量并行检查点。
  • 嵌入向量搜索:提供高效的推理缓存支持。

    Smallpond 数据处理框架

    除了 3FS,DeepSeek 还开源了基于 3FS 的数据处理框架 Smallpond。Smallpond 构建于 DuckDB 和 3FS 之上,是一款轻量级数据处理框架,具备以下特点:

    • 高性能:可扩展至 PB 级数据集。
    • 操作简便:无需长期运行的服务,易于上手。
    • 高效处理:结合 DuckDB 和 3FS 的优势,提供高性能数据处理能力。
    © 版权声明

    相关文章

    暂无评论

    none
    暂无评论...