美国社交平台 Reddit向北加州地方法院提交起诉书,指控 AI 初创公司 Anthropic 未经授权使用其网站内容训练 AI 模型,并要求赔偿损失及停止相关行为。
这是迄今为止首家对 AI 公司训练数据行为发起法律挑战的大型科技平台,标志着围绕 AI 训练数据合法性的争议进一步升级。
指控要点:未经授权抓取数据,违反用户协议
Reddit 在诉状中指出:
- Anthropic 未与 Reddit 达成任何授权协议;
- 却擅自利用爬虫系统抓取大量 Reddit 用户内容用于商业 AI 模型训练;
- 同时无视网站设置的 robots.txt 文件(该文件明确禁止自动化抓取);
- Reddit 表示曾多次尝试与 Anthropic 接触沟通,但对方“拒绝回应”。
此外,Reddit 强调,其平台上的内容由用户生成,未经许可的商业化使用不仅侵犯了平台权益,也损害了用户的隐私和利益。
“绝不容忍滥用我们的内容”
Reddit 首席法务官 Ben Lee 对 TechCrunch 表示:
“我们绝不容忍像 Anthropic 这样的逐利实体,在未获授权的情况下,以数十亿美元规模商业利用 Reddit 内容,却不回馈用户,也不尊重他们的隐私。”
AI 训练数据争议持续升温
Reddit 并非唯一一家就 AI 使用内容问题采取法律行动的公司:
- 《纽约时报》 已起诉 OpenAI 和微软,指控其未经许可使用新闻文章训练 AI;
- 作家 Sarah Silverman 等人 起诉 Meta,称其模型使用书籍内容未获授权;
- 多家音乐出版商和艺术家也对 AI 图像、音频生成公司提出类似指控。
这些案件反映出一个核心问题:AI 公司在训练模型时是否应获得原始内容创作者或平台的授权?
Reddit 与其他 AI 厂商已有合作先例
值得注意的是,Reddit 已与包括 OpenAI 和 Google 在内的多家 AI 公司达成正式授权协议,允许它们使用 Reddit 数据训练 AI 模型,但前提是必须遵守保护用户隐私和内容使用的条款。
其中,OpenAI 的 CEO Sam Altman 是 Reddit 的第三大股东,持有约 8.7% 的股份,并曾担任公司董事。
Reddit 的诉求是什么?
在诉讼中,Reddit 提出了以下要求:
- 经济赔偿:因 Anthropic 未经授权使用其内容而造成的经济损失;
- 不当得利返还:要求 Anthropic 归还因使用 Reddit 数据所获得的商业收益;
- 禁制令:请求法院下令禁止 Anthropic 继续使用 Reddit 内容进行训练或生成相关内容。
技术证据:Claude 频繁提及 Reddit 内容
Reddit 在诉状中指出,作为训练数据被使用的佐证,Anthropic 的 AI 助手 Claude 经常引用 Reddit 社区中的帖子和讨论话题,显示出其模型确实吸收并整合了 Reddit 的内容。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















