亚马逊发布 Trainium3 芯片,并预告支持英伟达生态的 Trainium4

硬件3天前发布 小马良
2 0

在 2025 年 AWS re:Invent 大会上,亚马逊云科技(AWS)正式推出其最新一代 AI 训练芯片 Trainium3,并首次公布下一代 Trainium4 的技术路线图——后者将支持与 英伟达 GPU 互操作,标志着 AWS 在自研芯片战略上的关键转向。

亚马逊发布 Trainium3 芯片,并预告支持英伟达生态的 Trainium4

Trainium3:性能与能效双提升

  • 制程工艺:3 纳米
  • 系统架构:Trainium3 UltraServer,单机支持 144 颗芯片
  • 性能表现
    • AI 训练速度 提升超 4 倍
    • 板载内存 增加 4 倍
    • 单集群可扩展至 100 万颗芯片(前代的 10 倍)
  • 能效:相比 Trainium2,功耗降低 40%,在 AI 算力竞赛中强调“绿色计算”

AWS 表示,该系统已服务于 Anthropic、Karakuri(日本 LLM 创企)、SplashMusic、Decart 等客户,在推理场景中显著降低单位成本。

关键转向:Trainium4 将兼容英伟达生态

最值得关注的是 AWS 对 Trainium4 的预告:

  • 支持 NVLink Fusion:英伟达的高速芯片互连技术,允许 Trainium4 与 H100/H200/B100 等 GPU 直接协同工作
  • 保留自研服务器优势:仍使用 AWS 低成本、高密度的自研机架与网络架构
  • 兼容现有 AI 软件栈:虽未明确支持 CUDA,但通过硬件级互连,为 CUDA 生态应用迁移铺平道路

这一设计意在解决自研芯片的最大瓶颈:生态割裂。过去,用户需重写代码才能从英伟达平台迁移到 Trainium。而 Trainium4 的混合架构,有望让客户在不放弃现有 CUDA 投资的前提下,逐步引入更低成本的 AWS 芯片。

为什么这很重要?

  • 对 AWS:降低客户迁移门槛,加速抢占英伟达主导的 AI 云市场
  • 对开发者:未来或可在同一集群中混合使用 GPU 与 Trainium,灵活平衡性能与成本
  • 对行业:继 Google TPU、微软 Maia 后,主流云厂商正从“完全替代”转向“生态共存”

何时可用?

  • Trainium3:已上线 AWS 云服务
  • Trainium4:尚无明确发布时间,但按 AWS 一年一迭代的节奏,预计 2026 年 re:Invent 大会正式发布
© 版权声明

相关文章

暂无评论

none
暂无评论...