EMPG

在复杂任务中，如网页购物、虚拟环境导航或深度信息检索，大语言模型（LLM）作为智能体的表现正日益受到关注。然而，一个长期困扰研究者的难题是：这些任务往往只在最终成功或失败时给出奖励信号——中间成百上千...

6个月前

02000