DuPO框架:通过双学习和偏好优化的方法,使大语言模型能够在没有标注数据的情况下进行自我验证和优化字节跳动Seed团队和南京大学的研究人员推出DuPO框架,它通过双学习(dual learning)和偏好优化(preference optimization)的方法,使大语言模型(LLMs)能够在没...新技术# DuPO框架# 大语言模型4个月前01550