在美国对高端GPU硬件出口限制持续加码的背景下,华为正式推出开源AI芯片编排工具 Flex:ai,聚焦大规模计算集群中AI芯片的利用率提升,为硬件供应受限提供软件端解决方案。该平台基于Kubernetes构建,将于华为ModelEngine开发者社区发布,宣称不仅能“创建比英伟达芯片快1000倍的模拟AI芯片”,还能将AI芯片平均利用率提升约30%,同时支持Ascend NPU与标准GPU硬件,兼容异构计算环境。

Flex:ai的核心逻辑是通过软件优化突破硬件性能瓶颈,其功能与2024年被英伟达收购的Run:ai平台类似,但以开源部署和跨加速器兼容性为核心亮点,尤其适配中国市场中广泛使用的Ascend芯片集群,为科研机构与企业提供更灵活的AI算力调度方案。
核心功能:软件优化解锁硬件潜力
- 虚拟实例切分,提升资源利用率
Flex:ai可将单个GPU或NPU卡切分成多个虚拟计算实例,解决传统场景中“小任务占用整卡导致资源浪费”“大模型单卡容量不足”的双重痛点:小型任务可堆叠运行,充分利用空闲资源;超大规模模型则能跨多张芯片分布式运行,突破单设备性能限制。通过这一机制,原本利用率较低的AI芯片,平均效率可提升约30%。 - 异构硬件编排,兼容多类型加速器
平台深度集成对华为Ascend NPU和行业标准GPU的支持,能在不同类型硬件组成的异构集群中灵活编排工作负载。这一特性使其在中国市场更具实用性——尤其适合同时部署Ascend芯片与其他GPU的科研机构、企业,无需为不同硬件单独配置调度工具,降低了跨平台使用成本。 - 智能调度器Hi Scheduler,动态分配资源
内置的Hi Scheduler调度器具备实时资源感知与分配能力,可在集群节点间重新分配空闲资源,自动将计算任务插入AI工作负载排队队列的最优位置,避免资源闲置与任务拥堵,确保算力供应的连续性与高效性。
技术架构:基于K8s的开源扩展
Flex:ai以开源Kubernetes(K8s)为基础架构,同时突破了传统K8s的功能边界:
- 统一高层调度逻辑:K8s本身已支持加速器设备插件、Volcano调度器、Ray框架等组件,但这些工具功能分散,需单独配置。Flex:ai在更高层级将其统一整合,简化了部署与操作流程,降低了用户的技术门槛;
- 聚焦AI场景优化:针对AI训练、推理任务的特性,优化了资源切片粒度、任务排队机制与跨设备协同逻辑,相比通用调度工具更贴合AI算力需求;
- 开源部署策略:采用开源模式发布,区别于部分商业编排工具的闭源限制,允许用户自由定制、二次开发,更适合科研机构与中小企业的灵活需求。
发布背景与行业意义
- 应对硬件出口限制,转向软件效率突破
在美国持续收紧高端GPU出口限制的背景下,中国科技行业面临硬件供应短缺的困境。Flex:ai的推出,体现了“硬件受限,软件补位”的应对思路——通过优化现有芯片的利用率,无需依赖新的高端硬件,即可实现AI算力的高效提升,为AI业务持续发展提供支撑。 - 对标商业工具,填补开源市场空白
其功能与英伟达收购的Run:ai平台类似,均支持大规模GPU集群的多租户调度、工作负载抢占等核心能力,但Flex:ai以开源为核心优势,且强调跨加速器兼容性,有望填补开源领域中高性能AI芯片编排工具的空白,为用户提供商业工具之外的低成本选择。 - 产学研协同研发,夯实技术基础
上海交通大学、西安交通大学、厦门大学的科研人员参与了Flex:ai的开发,体现了产学研协同的研发模式。这一模式既确保了工具的技术先进性,又能快速对接科研场景的实际需求,推动技术落地与迭代。
待解疑问:开源细节与实际性能待验证
尽管Flex:ai的功能描述颇具吸引力,但目前仍有多个关键问题尚未明确,需等待开源代码、文档及基准测试发布后验证:
- 资源切片的精细度:虚拟实例切分的最小单位的是多少,能否满足不同规模任务的灵活调度需求;
- 与标准K8s的兼容性:如何与K8s原生调度器交互,是否会产生冲突,部署成本高低;
- GPU类型支持范围:是否通过标准插件支持英伟达、AMD等主流GPU,兼容性覆盖程度如何;
- “1000倍模拟速度”的具体场景:该宣传的测试环境、对比标准的是啥,实际应用中能否复现这一性能提升。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















