一项最新研究为OpenAI在AI模型训练中使用受版权保护内容的指控提供了新的依据。OpenAI目前正面临来自作者、程序员和其他权利持有者的多起诉讼,他们指责该公司未经许可使用他们的作品——包括书籍、代码库等——来开发其AI模型。尽管OpenAI一直主张“合理使用”作为辩护依据,但原告方认为,美国版权法并未为训练数据设定豁免条款。
这项研究由华盛顿大学、哥本哈根大学和斯坦福大学的研究人员联合撰写,提出了一种创新方法,用于识别隐藏在API背后的模型(如OpenAI的模型)所“记住”的训练数据。
AI模型本质上是预测引擎,通过海量数据进行训练,它们学会了识别模式,从而能够生成文章、照片等内容。虽然大多数输出并非训练数据的逐字副本,但由于模型的学习机制,某些输出不可避免地会与训练数据高度相似。例如,图像模型曾被发现重现其训练数据中的电影截图,而语言模型则被观察到剽窃新闻文章。
研究人员提出了一种基于“高意外性”词语的方法。所谓“高意外性”词语,是指在一段文本中出现概率较低的词语。例如,在句子“杰克和我一动不动地坐着,雷达嗡嗡作响”中,“雷达”一词就被视为高意外性词语,因为它在统计上比“引擎”或“收音机”更不可能出现在“嗡嗡作响”之前。
研究团队通过从虚构书籍片段和《纽约时报》文章中移除这些高意外性词语,测试了包括GPT-4和GPT-3.5在内的多个OpenAI模型,观察这些模型是否能够“猜出”被遮盖的词语。如果模型能够正确猜出,研究人员则认为这很可能表明模型在训练过程中记住了该片段。
测试结果显示,GPT-4确实显示出记住了一些流行虚构书籍部分的迹象,其中包括一个包含受版权保护电子书样本的数据集BookMIA中的书籍。此外,该模型还记住了《纽约时报》文章的部分内容,尽管比例相对较低。
华盛顿大学的博士生、该研究的共同作者Abhilasha Ravichander在接受TechCrunch采访时表示,这一发现揭示了模型可能在训练中使用了“有争议的数据”。她指出:“为了拥有值得信赖的大型语言模型,我们需要能够探测、审计和科学检查这些模型。我们的工作旨在提供一种探测大型语言模型的工具,但整个生态系统对数据透明度的需求确实很大。”
OpenAI长期以来一直倡导放宽使用受版权保护数据开发模型的限制。尽管该公司已与某些内容提供方达成了许可协议,并提供了退出机制,允许版权所有者标记他们不希望被用于训练的内容,但它已向多个政府游说,希望将AI训练方法的“合理使用”规则纳入法律框架。
这一研究结果无疑为当前围绕AI版权的争议增添了新的复杂性,同时也引发了对数据透明度和合理使用界限的进一步讨论。