InferenceMax

5个月前发布 226 00

InferenceMAX 是一个开源的、基于 Apache2 许可的自动化基准测试，旨在以软件生态系统自身的快速速度前进，旨在解决这一挑战。

所在地：

美国

收录时间：

2025-10-11

其他站点:

打开网站手机查看

基准测试 # AI 推理 # InferenceMax

InferenceMax

InferenceMax

在 AI 领域，硬件常是聚光灯下的主角，但真正决定落地效果的，往往是软件栈——从驱动、内核到推理框架和调度策略。然而，大多数基准测试仍聚焦于芯片本身，忽视了软件演进对实际性能的持续影响。

InferenceMax

为填补这一空白，SemiAnalysis 推出了开源项目 InferenceMax（Apache 2.0 许可），一个每晚自动运行的 AI 推理基准测试套件，专门衡量真实世界推理场景中软硬件组合的效率，并以 总拥有成本（TCO） 为核心指标。

为什么需要 InferenceMax？

当前主流基准测试多为“快照式”——在某一时间点测试固定版本，无法反映软件每日迭代带来的性能变化。而 InferenceMax 采用滚动发布模式，每晚使用最新版推理框架（如 vLLM、SGLang、TensorRT-LLM 等）和驱动，持续追踪性能演进。

InferenceMax

更重要的是，它不只看“每秒生成多少 token”，而是回答一个更关键的问题：每百万 token 花多少钱？

核心指标：吞吐量、交互性与 TCO 的平衡

InferenceMax 关注两个关键维度：

吞吐量（Throughput）：以 token/s/GPU 衡量，反映 GPU 利用率。通过批量处理多个请求可最大化吞吐，适合后台任务。
交互性（Interactivity）：以 token/s/user 衡量，决定单个用户（如聊天机器人）的响应速度。

二者存在天然权衡：高吞吐常导致响应“卡顿”，高交互性则牺牲整体效率。理想配置位于 Pareto 前沿——在给定成本下，找到吞吐与交互的最佳平衡点。

而最终决策依据是 TCO（Total Cost of Ownership），即：

每百万 token 的美元成本
=（GPU 购置/租赁成本 + 电力 + 运维） ÷ 生成的 token 总量

这意味着，最快的 GPU 不一定最划算。例如，InferenceMax 数据显示，AMD 的 MI355X 在某些场景下的 TCO 可与 Nvidia 的 B200 相当，尽管后者峰值性能更高。

覆盖硬件与软件栈

目前 InferenceMax 1.0 支持：

英伟达：H100、H200、B200、GB200、NVL72
AMD：MI300X、MI325X、MI355X

未来数月将加入 Google TPU 和 AWS Trainium。

基准测试在 GitHub Actions 上每晚自动运行，使用厂商提供的“真实世界配置”——因为同一硬件可通过数千种参数组合调优，仅测默认设置无实际意义。

推动软件生态改进

InferenceMax 已促成多项实际优化：

在 AMD ROCm 中发现并协助修复多个性能 bug，推动补丁落地；
指出 ROCm 默认配置过于复杂，建议简化以降低用户调优门槛；
在 Nvidia Blackwell 驱动早期版本中发现实例启停时的初始化问题。

项目团队感谢英伟达、AMD 及多家云厂商的工程师深度协作，部分人员甚至通宵调试。这反映出 AI 软件栈仍处高速迭代期，基准测试本身已成为推动生态成熟的重要工具。

对开发者与企业的价值

选型参考：不再仅看“谁跑得快”，而是“谁更省钱”；
版本追踪：监控框架更新是否真正带来性能提升；
风险预警：及时发现新驱动或库引入的性能退化。

对于任何部署 LLM 推理服务的团队，InferenceMax 提供了一个动态、真实、成本导向的评估视角。

数据统计

相关导航

Hi3DEval

Hi3DEval不仅是一个评估工具，更是推动3D生成模型向更高保真度、更强可控性发展的基础设施。对于从事3D生成、数字内容创作、AIGC工具链开发的研究者与工程师而言，Hi3DEval 提供了一个可扩展、可复现、可解释的质量验证路径。

MC-Bench

MC-Bench允许用户挑战不同的AI模型在《我的世界》中根据提示词进行创造性的建造对决。通过这种方式，不仅能够以一种有趣且直观的方式评估AI模型的能力，还能够让更多的人参与到对AI进展的理解和评估中来。

SciArena

SciArena是一个开放且协作的平台，直接吸引科学界参与评估科学文献任务中的基础模型。这种基于众包的、面对面的语言模型评估方法已在通用领域由类似 Chatbot Arena 的平台成功开创。

VAE Comparison Tool

VAE Comparison Tool

这款 VAE 对比工具为用户提供了一个简单而强大的平台，用于评估和比较不同 VAE 的重建能力。通过差异图、重建图像和差异总和三种输出形式，用户可以从多个角度全面了解每个 VAE 的优缺点。

WorldVQA

WorldVQA是一个旨在衡量多模态大语言模型（MLLM）事实正确性的新基准。尽管最近发布的模型在视觉推理和描述方面展现出了令人印象深刻的能力，但衡量它们在视觉世界知识方面的可靠性仍然是一个挑战。

NOFX

NOFX是一个基于 DeepSeek/Qwen AI 的加密货币期货自动交易系统，支持 Binance、Hyperliquid和Aster DEX交易所，多AI模型实盘竞赛，具备完整的市场分析、AI决策、自我学习机制和专业的Web监控界面。

AI Ping

AI Ping 是一个面向大模型使用者，提供全面、客观、真实的大模型服务评测平台。官方精心打造的大模型服务性能排行榜，由专业团队定期、高频率地输出测评结果，并进行实时更新，清晰地呈现每个供应商在不同时间段的数据表现，为开发者提供即时、详细的数据参考服务，助力行业提升AI产品应用的开发效率与服务质量。

VideoGameBench

VideoGameBench是一个强大的工具，为评估视觉-语言模型在视频游戏中的多模态理解与推理能力提供了一个标准化的平台。通过支持多种游戏平台和类型，它为研究人员和开发者提供了一个灵活且多样化的测试环境。

暂无评论

none

暂无评论...