
在 Anthropic 同意支付 15 亿美元解决版权诉讼之后,AI 行业正面临一场关于训练数据合法性的系统性拷问。目前,全球有近 40 起未决诉讼指向 AI 公司未经授权使用网络内容进行模型训练——从新闻文本到艺术图像,无一幸免。
Midjourney 因生成“超人”图像被漫画公司起诉;Stability AI 被指控复制数百万张艺术家作品;谷歌的 AI 摘要功能也被质疑侵犯出版商权益。

如果缺乏一种广泛接受的数据许可机制,这类诉讼可能演变为长期法律负担,甚至限制技术发展路径。
现在,一个由互联网老将推动的新方案正在浮现:Real Simple Licensing(RSL) ——一个旨在为 AI 训练数据建立规模化许可体系的技术与法律框架。
其联合创始人之一,正是 RSS 1.0 的共同创建者 Eckart Walther。他和团队的目标很明确:
“我们需要为互联网制定机器可读的许可协议。这正是 RSL 解决的问题。”
RSL 是什么?它如何工作?
RSL 并非简单的道德倡议或个别授权协议,而是一套结合技术标准 + 法律基础设施的完整系统,目标是实现“谁的数据、谁受益”的公平原则。
它包含两个核心组成部分:
1. 技术层:机器可读的许可声明
- 参与网站在其
robots.txt文件中添加标准化字段,声明其内容是否允许用于 AI 训练; - 支持多种许可模式:
- 自定义条款(如 Reddit 与 Google 的私有协议)
- Creative Commons 类型授权
- 集体管理许可(通过 RSL Collective)
这意味着 AI 公司在抓取前即可自动识别某站点的使用规则,无需人工谈判每一份授权。
示例:
User-agent: AI-Training-BotAllow: /License: RSL-NC-ND-2024
(表示允许非商业用途、禁止演绎)
这种设计借鉴了 RSS 和 robots.txt 的开放精神,延续了 Web 开放协议的传统。
2. 法律层:RSL Collective —— 数据版税的“集体收缴机构”
为了简化交易成本,RSL 成立了 RSL Collective,类似于音乐行业的 ASCAP 或电影领域的 MPLC:
- 代表成员出版商统一谈判许可条款;
- 向 AI 公司收取版税并按比例分配;
- 提供单一支付接口,降低合规复杂度。
目前已加入该集体的重要出版商包括:
- Yahoo
- Medium
- O’Reilly Media
- Ziff Davis(Mashable、CNET 所有者)
- Internet Brands(WebMD 所有者)
- The Daily Beast
- People.com
另有 Fastly、Quora、Adweek 等支持协议但暂未加入集体。
值得注意的是,即使已有单独协议的公司也可参与。例如 Reddit 已与谷歌达成年费约 6000 万美元的数据授权,但这并不妨碍它同时通过 RSL Collective 与其他 AI 实验室建立新合作——就像 Taylor Swift 既可通过 ASCAP 收取公共演出费,也能单独授权品牌广告。
为什么小出版商尤其需要 RSL?
大型平台或许有能力与 AI 公司一对一谈判,但绝大多数中小型内容创作者根本没有议价能力。
他们面临两难:
- 不授权 → 数据被无偿使用;
- 自主授权 → 缺乏法律资源和技术手段追踪使用情况。
RSL 正是为此类出版商提供了一条“搭便车”的路径:只要在 robots.txt 中声明许可,就能通过集体机制获得回报,而无需组建法务团队或开发监测系统。
正如 RSL 联合创始人、前 IAC Publishing CEO Doug Leeds 所说:
“他们不需要完美地知道每一比特数据何时被用了。只需要足够好,让人们得到报酬。”
最大挑战:AI 公司会买账吗?
技术可行不等于生态采纳。RSL 面临的核心问题是:
前沿 AI 实验室是否会放弃“免费抓取”,转而采用这套许可体系?
目前,许多公司依赖像 Common Crawl 这样的公开数据集,其中包含了数十亿网页的副本,且长期被视为“可用即合法”。要让这些企业转向付费模式,并非易事。
此外,还有几个现实难题:
📌 使用追溯难
LLM 的训练过程通常是批处理式的,一旦完成,几乎无法确认某个特定文档是否曾被摄入。若出版商要求“按推理次数计费”(pay-per-inference),技术上极难实现精确计量。
不过 Leeds 认为这并非不可克服:
“一些现有许可协议已经要求 AI 公司报告数据使用情况。它不必完美,只要可信即可。”
📌 浏览 vs. 抓取的边界模糊
Cloudflare 与 Perplexity 近期争议表明,AI 公司常以“用户代理”身份模拟人类浏览行为获取内容,规避 robots.txt 限制。RSL 依赖于自愿遵守,难以强制执行。
📌 行业态度尚不明朗
尽管 Sundar Pichai、Sam Altman 等人曾公开呼吁建立“数据许可系统”,但实际行动滞后。RSL 团队的态度是:
“你们说需要这样一个系统。现在,我们建好了。你们要不要兑现承诺?”
RSL 的意义:不只是钱,更是规则
RSL 的真正价值,不仅在于能否带来版税收入,更在于它尝试回答一个根本问题:
当 AI 开始消费整个互联网时,我们应该用什么样的规则来约束这种消费?
过去二十多年,互联网靠“开放共享”发展起来;未来十年,AI 若想可持续发展,也需要一套被广泛接受的“使用准则”。
RSL 提供了一个可能的答案:
- 对出版商:不再是被动受害者,而是可主张权利的参与者;
- 对 AI 公司:获得法律确定性,减少诉讼风险;
- 对用户:确保生成内容不会侵蚀原创生态。
正如 Walther 所强调:
“这不是反 AI,而是为了让 AI 更好地融入现有的互联网秩序。”
数据统计
相关导航


GLM-PC

MemU

新Hugging Face Skills

Clarifai

Luma API MCP

OpenHands GitHub Launcher






