
LoCoDiff
LoCoDiff 不只是一个性能榜单,更是对当前长上下文模型能力边界的诚实检验。它揭示了一个事实:即使模型宣称支持百万 token 上下文,也不意味着能在实际任务中有效利用这些信息。尤其是在需要持续状态跟踪的场景中,记忆衰减、注意力分散等问题依然严峻。
LMArena(原Chatbot Arena)是一个开放平台,专注于通过人类偏好评估大语言模型(LLMs)和AI绘画模型的性能。该平台由加州大学伯克利分校的SkyLab和LMSYS研究团队开发,为LLMs提供一个公正、透明的评估环境。

用户可以通过以下步骤使用LMArena:

Chatbot Arena表示热情邀请大家体验LMArena的全新Beta版。数月来,团队深入研究社区反馈,致力于改进网站——修复错误/漏洞、优化UI布局等。Beta版从头重建,具体改进包括:








