L1-1.5B

共 1 篇文章

排序

发布更新浏览点赞

卡内基梅隆大学推出 L1-1.5B：用强化学习优化 AI 推理过程，精准控制“思考”时长

卡内基梅隆大学推出 L1-1.5B：用强化学习优化 AI 推理过程，精准控制“思考”时长

推理语言模型通过生成更长的思维链序列来提升性能，但目前无法控制推理长度，导致计算资源分配低效。模型可能生成过长输出浪费资源，或过早停止导致性能不佳。传统方法（如使用“等待”或“最终答案”标记）会降低性...

大语言模型 # L1-1.5B # 卡内基梅隆大学 # 推理模型

1年前

03010