Midjourney和纽约大学的研究人员发布论文《Modifying Large Language Model Post-Training for Diverse Creative Writing》,通过改进大语言模型(LLMs)的后训练方法,提升其在创意写作任务中的输出多样性和质量。研究的核心思想是在训练目标中引入“偏离度”(deviation),即训练样本与其他相同提示(prompt)样本之间的差异程度,从而促进模型从罕见但高质量的实例中学习。
例如,有一个创意写作任务,提示是“写一个关于月球上的狗的故事”。对于这个提示,可能有多种不同的故事展开方式,比如狗的冒险经历、狗在月球上的孤独生活等。传统的LLMs后训练方法可能会导致生成的故事内容同质化,而这篇论文提出的方法能够生成更多样化的有效故事。

主要功能
- 提升输出多样性:通过在训练目标中加入偏离度,模型能够生成更多样化的文本,避免输出内容的同质化。
- 保持输出质量:在提升多样性的同时,模型的输出质量不会显著下降,甚至可以与现有的高质量指令调优模型相媲美。
- 适应创意写作任务:特别针对创意写作任务,模型能够生成多种有效且有趣的写作内容,满足不同用户的需求。
主要特点
- 偏离度的引入:将偏离度作为训练目标的一部分,强调模型学习罕见但高质量的训练实例。
- 扩展的DPO和ORPO方法:通过修改直接偏好优化(DPO)和赔率比偏好优化(ORPO)方法,引入偏离度权重,促进模型生成多样化输出。
- 实验验证:通过自动评估和人类评估,验证了方法在提升多样性和保持质量方面的有效性。
- 鲁棒性:即使在数据集规模较小的情况下,该方法仍然能够有效提升输出多样性,且对数据集大小的变化具有一定的鲁棒性。
工作原理
- 偏离度的计算:对于每个训练样本,计算其与其他相同提示样本之间的偏离度,即样本之间的差异程度。
- 修改训练目标:在DPO和ORPO的训练目标中引入偏离度权重,使得模型更倾向于学习偏离度高的样本,从而增加输出的多样性。
- 训练过程:使用带有偏离度权重的训练目标对模型进行后训练,优化模型的参数,使其在生成文本时能够平衡多样性和质量。
应用场景
- 创意写作辅助工具:为作家、编剧等提供创意灵感,帮助他们快速生成多种故事大纲或情节。
- 内容生成平台:在内容创作平台中,为用户提供多样化的写作选项,满足不同用户的个性化需求。
- 广告和营销:为广告文案撰写提供多样化的创意内容,帮助营销人员快速生成吸引人的广告语。
- 游戏开发:在游戏剧情设计中,生成多样化的剧情分支,增强游戏的可玩性和趣味性。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...