Fluid Benchmarking

在当前的语言模型评测中，我们通常采用“统一试卷”模式：无论模型是刚起步的小型模型，还是千亿参数的顶尖系统，都使用同一套固定题目进行打分。这就像让小学生和博士生做同一份数学卷子——看似公平，实则难以...

6个月前

01170