卡内基梅隆大学推出 L1-1.5B:用强化学习优化 AI 推理过程,精准控制“思考”时长推理语言模型通过生成更长的思维链序列来提升性能,但目前无法控制推理长度,导致计算资源分配低效。模型可能生成过长输出浪费资源,或过早停止导致性能不佳。传统方法(如使用“等待”或“最终答案”标记)会降低性...大语言模型# L1-1.5B# 卡内基梅隆大学# 推理模型3周前0610