LoCoDiffLoCoDiff 不只是一个性能榜单,更是对当前长上下文模型能力边界的诚实检验。它揭示了一个事实:即使模型宣称支持百万 token 上下文,也不意味着能在实际任务中有效利用这些信息。尤其是在需要持续状态跟踪的场景中,记忆衰减、注意力分散等问题依然严峻。01980基准测试# LoCoDiff# 长上下文评估基准