HumaneBenchHumaneBench基于以下核心原则构建:科技应尊重用户注意力为有限珍贵资源;通过有意义选择赋能用户;增强而非取代人类能力;保护人类尊严、隐私与安全;培育健康人际关系;优先考虑长期福祉;保持透明诚实;以及设计促进公平包容。
Fal.aiFal.ai 是一个专注于生成式媒体(如图像、视频和音频)的开发者平台,通过提供高性能的 AI 模型推理和训练能力,简化了 AI 模型的部署与扩展。其高效、成本效益高的基础设施吸引了众多开发者和企业用户,成为生成式 AI 领域的重要参与者。
Hi3DEvalHi3DEval不仅是一个评估工具,更是推动3D生成模型向更高保真度、更强可控性发展的基础设施。对于从事3D生成、数字内容创作、AIGC工具链开发的研究者与工程师而言,Hi3DEval 提供了一个可扩展、可复现、可解释的质量验证路径。
MagicArenaMagicArena是字节跳动推出的一个采用Elo积分机制的视觉生成大模型公开对战平台。平台上有多个视觉生成大模型(文生图、文生视频、图生视频)随机两两对战,用户对生成的结果进行评价,累积定对战数据后可以查看自己的大模型排行榜。
Music ArenaMusic Arena 是世界上第一个面向公众开放的音乐生成模型评测平台。在这里,AI 创作的旋律不再是黑箱输出,而是可以被真实听众直接比较、投票和评判的对象。我们相信,最好的评估方式不是参数规模或技术文档,而是人类的耳朵。
LoCoDiffLoCoDiff 不只是一个性能榜单,更是对当前长上下文模型能力边界的诚实检验。它揭示了一个事实:即使模型宣称支持百万 token 上下文,也不意味着能在实际任务中有效利用这些信息。尤其是在需要持续状态跟踪的场景中,记忆衰减、注意力分散等问题依然严峻。
Open ASR 排行榜Open ASR 排行榜 对 Hugging Face Hub 上的语音识别模型进行排名和评估。我们报告平均 WER(字错误率)(⬇️ 越低越好)和 RTFx(实时因子)(⬆️ 越高越好),模型根据其平均 WER 从低到高进行排名。