VideoGameBenchVideoGameBench是一个强大的工具,为评估视觉-语言模型在视频游戏中的多模态理解与推理能力提供了一个标准化的平台。通过支持多种游戏平台和类型,它为研究人员和开发者提供了一个灵活且多样化的测试环境。
AITradeGameAITradeGame 是一个开源的 AI 交易模拟平台,支持 本地自托管 与 在线竞技 双模式,旨在为开发者、量化爱好者和 AI 研究者提供一个隐私优先、灵活可扩展的 AI 交易实验环境。
Endor LabsEndor Labs是一家专注于 AI 生成代码安全 的公司,其平台能够实时扫描代码,识别潜在风险,并提供精确的修复建议。此外,Endor 还推出了一个插件,与主流 AI 编程工具(如 Cursor 和 GitHub Copilot)集成,可以在代码编写过程中即时标记问题。
Code ArenaLMArena正式推出 Code Arena,一个面向 AI 编程模型的新型评估平台。与传统仅测试代码正确性或通过单元测试的基准不同,Code Arena 聚焦于完整软件开发周期,记录模型从需求理解到部署的全过程行为。
MC-BenchMC-Bench允许用户挑战不同的AI模型在《我的世界》中根据提示词进行创造性的建造对决。通过这种方式,不仅能够以一种有趣且直观的方式评估AI模型的能力,还能够让更多的人参与到对AI进展的理解和评估中来。
AI PingAI Ping 是一个面向大模型使用者,提供全面、客观、真实的大模型服务评测平台。官方精心打造的大模型服务性能排行榜,由专业团队定期、高频率地输出测评结果,并进行实时更新,清晰地呈现每个供应商在不同时间段的数据表现,为开发者提供即时、详细的数据参考服务,助力行业提升AI产品应用的开发效率与服务质量。