DuPO框架：通过双学习和偏好优化的方法，使大语言模型能够在没有标注数据的情况下进行自我验证和优化

新技术6个月前更新小马良

171 0

字节跳动Seed团队和南京大学的研究人员推出DuPO框架，它通过双学习（dual learning）和偏好优化（preference optimization）的方法，使大语言模型（LLMs）能够在没有标注数据的情况下进行自我验证和优化。例如，在数学问题解答中，模型不仅要给出答案，还要通过逆向任务（如从答案反推问题中的未知变量）来验证答案的正确性，从而实现自我监督学习。

论文：https://arxiv.org/abs/2508.14460

主要功能

自我验证与优化：DuPO使LLMs能够在没有外部标注数据的情况下，通过构造的逆向任务（dual task）来验证和优化自身的输出。
提升模型性能：通过自我监督学习，显著提升LLMs在多种任务上的性能，如多语言翻译和数学推理。
泛化能力增强：使模型在训练过程中学习到的技能能够泛化到未见过的测试集上，提高模型的适应性和鲁棒性。

主要特点

无需外部标注：不依赖于昂贵且难以获取的人类标注数据或可验证的答案，降低了训练成本。
适用范围广：不仅适用于可逆任务（如机器翻译和反向翻译），还扩展到了非可逆任务（如数学推理）。
模型无关性：可以应用于多种不同架构和规模的LLMs，具有良好的通用性和可扩展性。

工作原理

任务分解与重构：将原始任务的输入分解为已知和未知部分，通过原始任务的输出和已知信息重构未知部分，形成逆向任务。
自我监督奖励：利用逆向任务的重构质量作为自我监督的奖励信号，优化原始任务的性能。
强化学习：采用强化学习算法（如GRPO）来最大化基于逆向任务的预期奖励，从而提升模型的性能。

测试结果

多语言翻译：在756个翻译方向上，平均翻译质量提升了2.13 COMET点，使7B参数的Seed-X模型达到了与超大型模型相当的性能。
数学推理：在三个挑战性基准测试中，平均准确率提升了6.4个百分点，使Qwen3-4B模型的性能超过了DeepSeek-R1等超大型模型。
推理时重排：作为推理时的重排机制，无需额外训练，就能使模型性能提升9.3个百分点，使小型模型能够超越大型LLMs。

DuPO框架：通过双学习和偏好优化的方法，使大语言模型能够在没有标注数据的情况下进行自我验证和优化

应用场景

多语言翻译：提高机器翻译系统的翻译质量和适应性，使其能够更好地处理多种语言之间的翻译任务。
数学推理：提升LLMs在数学问题解答、逻辑谜题等复杂推理任务中的准确性和可靠性。
其他领域：如代码生成、对话系统等，通过自我监督学习提升模型在这些领域的性能和泛化能力。

新技术 # DuPO框架 # 大语言模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

新型图像到视频生成技术 Frame In-N-Out：突破传统视频生成中帧边界限制，实现更自由、更具创意的视频生成效果

新型图像到视频生成技术 Frame In-N-Out：突破传统视频生成中帧边界限制，实现更自由、更具创意的视频生成效果

新技术 # Frame In-N-Out # 图生视频

8个月前

03210

告别 GPU 算力浪费！DeepSeek 条件记忆技术：让大模型检索静态知识更高效

告别 GPU 算力浪费！DeepSeek 条件记忆技术：让大模型检索静态知识更高效

新技术 # DeepSeek # Engram # 条件记忆

3周前

0240

Fluid: 基于连续令牌和随机顺序生成的文生图模型

Fluid: 基于连续令牌和随机顺序生成的文生图模型

新技术 # Fluid:# 文生图模型

1年前

04590

E2GAN：用于图像到图像翻译的高效训练和推理的生成对抗网络（GAN）模型

E2GAN：用于图像到图像翻译的高效训练和推理的生成对抗网络（GAN）模型

新技术 # E2GAN # 生成对抗网络（GAN）模型

2年前

04910

暂无评论

none

暂无评论...