长上下文评估基准

共 1 篇网址

排序

发布更新浏览点赞

LoCoDiff

LoCoDiff 不只是一个性能榜单，更是对当前长上下文模型能力边界的诚实检验。它揭示了一个事实：即使模型宣称支持百万 token 上下文，也不意味着能在实际任务中有效利用这些信息。尤其是在需要持续状态跟踪的场景中，记忆衰减、注意力分散等问题依然严峻。

03090

基准测试 # LoCoDiff # 长上下文评估基准