据路透社报道,Meta 正在测试其首款基于 RISC-V 架构的内部设计 AI 训练芯片,这可能是业界首款 RISC-V AI 训练加速器。这一举措标志着 Meta 在降低对英伟达 GPU 依赖的道路上迈出了重要一步,同时也展示了其在定制硬件领域的雄心壮志。

Meta 的 RISC-V 芯片之路
Meta 是最早采用 RISC-V 芯片进行 AI 推理的公司之一,其目标是降低成本并减少对英伟达的依赖。如今,Meta 更进一步,设计了其内部 AI 训练加速器,据推测该设计可能得到了博通的协助。如果这款芯片达到预期目标,它可能会显著减少 Meta 对英伟达高端 AI GPU(如 H100/H200 和 B100/B200)的依赖,尤其是在训练高级大语言模型方面。
芯片设计与测试进展
据报道,Meta 和博通已经与台积电(TSMC)完成了首款 AI 训练加速器的芯片设计,并生产出了首批工作样品。合作伙伴已成功启动该单元,目前 Meta 正在小规模部署该加速器,以评估其性能。然而,目前尚不清楚 Meta 的工程师是否正在对新芯片进行基准测试,或者它是否已被部署用于某些实际工作负载。
芯片规格与架构
尽管芯片的具体规格尚未公开,但通常 AI 训练芯片会采用一种称为“脉动阵列”的设计。这种架构由排列成行和列的相同处理单元(PE)组成,数据按顺序流经网络,每个单元处理涉及矩阵或向量的计算。鉴于该处理器是为 AI 训练设计的,预计它将配备 HBM3 或 HBM3E 内存,以满足处理大量数据的需求。
此外,作为一款定制处理器,Meta 可能定义了其支持的数据格式和指令集,以优化芯片面积、功耗和性能。在性能方面,该加速器必须在性能功耗比上与英伟达最新的 AI GPU(如 H200、B200,甚至可能是下一代 B300)竞争。
Meta 的定制芯片计划
这款芯片是 Meta 训练和推理加速器(MTIA)计划的最新成果。该计划此前曾遭遇挫折,例如在类似阶段中止了内部推理处理器的开发。此前,该推理处理器在小规模部署测试中未能达到性能和功耗目标,导致 Meta 在 2022 年调整策略,大量订购英伟达 GPU 以满足其即时的 AI 处理需求。
尽管如此,Meta 仍在推进其定制硅计划。去年,Meta 开始使用 MTIA 芯片进行推理任务,并计划在 2026 年开始使用其定制芯片进行 AI 训练。如果芯片达到性能和功耗目标,Meta 计划逐步增加使用量,这是其长期目标的重要组成部分——为其数据中心操作设计更多定制硬件解决方案。
值得注意的是,MTIA 用于推理的加速器采用了开源 RISC-V 核心,这使 Meta 能够根据自身需求自由定制指令集架构,且无需向第三方支付版税。目前尚不清楚 MTIA 的训练加速器是否也基于 RISC-V 指令集,但可能性较大。如果属实,Meta 可能开发出了业界性能最高的基于 RISC-V 的芯片之一。