华为开源 Flex:ai 软件：宣称模拟AI芯片快1000倍，提升GPU/NPU利用率30%

25 0

在美国对高端GPU硬件出口限制持续加码的背景下，华为正式推出开源AI芯片编排工具 Flex:ai，聚焦大规模计算集群中AI芯片的利用率提升，为硬件供应受限提供软件端解决方案。该平台基于Kubernetes构建，将于华为ModelEngine开发者社区发布，宣称不仅能“创建比英伟达芯片快1000倍的模拟AI芯片”，还能将AI芯片平均利用率提升约30%，同时支持Ascend NPU与标准GPU硬件，兼容异构计算环境。

华为开源 Flex:ai 软件：宣称模拟AI芯片快1000倍，提升GPU/NPU利用率30%

Flex:ai的核心逻辑是通过软件优化突破硬件性能瓶颈，其功能与2024年被英伟达收购的Run:ai平台类似，但以开源部署和跨加速器兼容性为核心亮点，尤其适配中国市场中广泛使用的Ascend芯片集群，为科研机构与企业提供更灵活的AI算力调度方案。

核心功能：软件优化解锁硬件潜力

虚拟实例切分，提升资源利用率
Flex:ai可将单个GPU或NPU卡切分成多个虚拟计算实例，解决传统场景中“小任务占用整卡导致资源浪费”“大模型单卡容量不足”的双重痛点：小型任务可堆叠运行，充分利用空闲资源；超大规模模型则能跨多张芯片分布式运行，突破单设备性能限制。通过这一机制，原本利用率较低的AI芯片，平均效率可提升约30%。
异构硬件编排，兼容多类型加速器
平台深度集成对华为Ascend NPU和行业标准GPU的支持，能在不同类型硬件组成的异构集群中灵活编排工作负载。这一特性使其在中国市场更具实用性——尤其适合同时部署Ascend芯片与其他GPU的科研机构、企业，无需为不同硬件单独配置调度工具，降低了跨平台使用成本。
智能调度器Hi Scheduler，动态分配资源
内置的Hi Scheduler调度器具备实时资源感知与分配能力，可在集群节点间重新分配空闲资源，自动将计算任务插入AI工作负载排队队列的最优位置，避免资源闲置与任务拥堵，确保算力供应的连续性与高效性。

技术架构：基于K8s的开源扩展

Flex:ai以开源Kubernetes（K8s）为基础架构，同时突破了传统K8s的功能边界：

统一高层调度逻辑：K8s本身已支持加速器设备插件、Volcano调度器、Ray框架等组件，但这些工具功能分散，需单独配置。Flex:ai在更高层级将其统一整合，简化了部署与操作流程，降低了用户的技术门槛；
聚焦AI场景优化：针对AI训练、推理任务的特性，优化了资源切片粒度、任务排队机制与跨设备协同逻辑，相比通用调度工具更贴合AI算力需求；
开源部署策略：采用开源模式发布，区别于部分商业编排工具的闭源限制，允许用户自由定制、二次开发，更适合科研机构与中小企业的灵活需求。

发布背景与行业意义

应对硬件出口限制，转向软件效率突破
在美国持续收紧高端GPU出口限制的背景下，中国科技行业面临硬件供应短缺的困境。Flex:ai的推出，体现了“硬件受限，软件补位”的应对思路——通过优化现有芯片的利用率，无需依赖新的高端硬件，即可实现AI算力的高效提升，为AI业务持续发展提供支撑。
对标商业工具，填补开源市场空白
其功能与英伟达收购的Run:ai平台类似，均支持大规模GPU集群的多租户调度、工作负载抢占等核心能力，但Flex:ai以开源为核心优势，且强调跨加速器兼容性，有望填补开源领域中高性能AI芯片编排工具的空白，为用户提供商业工具之外的低成本选择。
产学研协同研发，夯实技术基础
上海交通大学、西安交通大学、厦门大学的科研人员参与了Flex:ai的开发，体现了产学研协同的研发模式。这一模式既确保了工具的技术先进性，又能快速对接科研场景的实际需求，推动技术落地与迭代。