大英百科全书公司起诉 OpenAI，指控其"大规模侵犯版权"

拥有梅里亚姆-韦伯斯特的大英百科全书公司在一份起诉书中指控，这家 AI 巨头实施了"大规模侵犯版权"。该出版商在诉讼中称，大英百科全书拥有近 10 万篇在线文章的版权，这些文章在未经许可的情况下被抓取并用于训练 OpenAI 的大语言模型。

大英百科全书还指控 OpenAI 在生成包含其内容"完整或部分逐字复制"的输出时，以及在该 AI 实验室在其 ChatGPT 的 RAG 工作流程中使用其文章时，违反了版权法。OpenAI 的 RAG 工具是其大语言模型在响应用户查询时，扫描网络或其他数据库以获取最新更新信息的方式。大英百科全书还指控 OpenAI 违反了商标法《兰哈姆法》，因为它生成了虚构的幻觉内容，并错误地将其归因于该出版商。

诉讼书写道："ChatGPT 通过生成对用户查询的回应，来替代并直接与像[大英百科全书]这样的出版商的内容竞争，从而剥夺了像[大英百科全书]这样的网络出版商的收入。"大英百科全书还声称 ChatGPT 的幻觉内容危及"公众持续获取高质量、可信赖的在线信息"。

大英百科全书加入了其他许多出版商和作家的行列，就版权问题对 OpenAI 采取法律行动。《纽约时报》、兹夫·戴维斯（Mashable、CNET、IGN、PC Mag 等网站的拥有者）以及美国和加拿大的十多家报纸，包括《芝加哥论坛报》、《丹佛邮报》、《太阳哨兵报》、《多伦多星报》和加拿大广播公司，都已起诉 OpenAI。

大英百科全书针对 Perplexity 提起的类似诉讼仍在审理中。

目前尚无强有力的法律先例来确定使用受版权保护的内容训练大语言模型是否构成版权侵权。但在一个特定案例中，Anthropic 成功地说服联邦法官威廉·阿尔萨普，认为这种用例——将内容用作训练数据——具有足够的变革性，因此是合法的。然而，阿尔萨普认为，Anthropic 非法下载数百万本书籍而未付费，违反了法律，这导致其需要与受影响的作家达成 15 亿美元的集体诉讼和解。