RSL

7个月前发布 160 00

Really Simple Licensing (RSL) 是在 RSS 标准早期理念基础上的进一步发展。RSL 标准对这些理念进行了扩展和通用化，加入了明确的授权条款，使发布者能够以机器可读的方式，定义对其内容进行抓取和处理时的补偿与使用条件。

所在地：

美国

收录时间：

2025-09-21

其他站点:

RSL Collective

打开网站手机查看

RSL

打开网站

在 Anthropic 同意支付 15 亿美元解决版权诉讼之后，AI 行业正面临一场关于训练数据合法性的系统性拷问。目前，全球有近 40 起未决诉讼指向 AI 公司未经授权使用网络内容进行模型训练——从新闻文本到艺术图像，无一幸免。

Midjourney 因生成“超人”图像被漫画公司起诉；Stability AI 被指控复制数百万张艺术家作品；谷歌的 AI 摘要功能也被质疑侵犯出版商权益。

如果缺乏一种广泛接受的数据许可机制，这类诉讼可能演变为长期法律负担，甚至限制技术发展路径。

现在，一个由互联网老将推动的新方案正在浮现：Real Simple Licensing（RSL） ——一个旨在为 AI 训练数据建立规模化许可体系的技术与法律框架。

其联合创始人之一，正是 RSS 1.0 的共同创建者 Eckart Walther。他和团队的目标很明确：

“我们需要为互联网制定机器可读的许可协议。这正是 RSL 解决的问题。”

RSL 是什么？它如何工作？

RSL 并非简单的道德倡议或个别授权协议，而是一套结合技术标准 + 法律基础设施的完整系统，目标是实现“谁的数据、谁受益”的公平原则。

它包含两个核心组成部分：

1. 技术层：机器可读的许可声明

参与网站在其 robots.txt 文件中添加标准化字段，声明其内容是否允许用于 AI 训练；
支持多种许可模式：
- 自定义条款（如 Reddit 与 Google 的私有协议）
- Creative Commons 类型授权
- 集体管理许可（通过 RSL Collective）

这意味着 AI 公司在抓取前即可自动识别某站点的使用规则，无需人工谈判每一份授权。

示例：
User-agent: AI-Training-Bot
Allow: /
License: RSL-NC-ND-2024
（表示允许非商业用途、禁止演绎）

这种设计借鉴了 RSS 和 robots.txt 的开放精神，延续了 Web 开放协议的传统。

2. 法律层：RSL Collective —— 数据版税的“集体收缴机构”

为了简化交易成本，RSL 成立了 RSL Collective，类似于音乐行业的 ASCAP 或电影领域的 MPLC：

代表成员出版商统一谈判许可条款；
向 AI 公司收取版税并按比例分配；
提供单一支付接口，降低合规复杂度。

目前已加入该集体的重要出版商包括：

Reddit
Yahoo
Medium
O’Reilly Media
Ziff Davis（Mashable、CNET 所有者）
Internet Brands（WebMD 所有者）
The Daily Beast
People.com

另有 Fastly、Quora、Adweek 等支持协议但暂未加入集体。

值得注意的是，即使已有单独协议的公司也可参与。例如 Reddit 已与谷歌达成年费约 6000 万美元的数据授权，但这并不妨碍它同时通过 RSL Collective 与其他 AI 实验室建立新合作——就像 Taylor Swift 既可通过 ASCAP 收取公共演出费，也能单独授权品牌广告。

为什么小出版商尤其需要 RSL？

大型平台或许有能力与 AI 公司一对一谈判，但绝大多数中小型内容创作者根本没有议价能力。

他们面临两难：

不授权 → 数据被无偿使用；
自主授权 → 缺乏法律资源和技术手段追踪使用情况。

RSL 正是为此类出版商提供了一条“搭便车”的路径：只要在 robots.txt 中声明许可，就能通过集体机制获得回报，而无需组建法务团队或开发监测系统。

正如 RSL 联合创始人、前 IAC Publishing CEO Doug Leeds 所说：

“他们不需要完美地知道每一比特数据何时被用了。只需要足够好，让人们得到报酬。”

最大挑战：AI 公司会买账吗？

技术可行不等于生态采纳。RSL 面临的核心问题是：

前沿 AI 实验室是否会放弃“免费抓取”，转而采用这套许可体系？

目前，许多公司依赖像 Common Crawl 这样的公开数据集，其中包含了数十亿网页的副本，且长期被视为“可用即合法”。要让这些企业转向付费模式，并非易事。

此外，还有几个现实难题：

📌 使用追溯难

LLM 的训练过程通常是批处理式的，一旦完成，几乎无法确认某个特定文档是否曾被摄入。若出版商要求“按推理次数计费”（pay-per-inference），技术上极难实现精确计量。

不过 Leeds 认为这并非不可克服：

“一些现有许可协议已经要求 AI 公司报告数据使用情况。它不必完美，只要可信即可。”

📌 浏览 vs. 抓取的边界模糊

Cloudflare 与 Perplexity 近期争议表明，AI 公司常以“用户代理”身份模拟人类浏览行为获取内容，规避 robots.txt 限制。RSL 依赖于自愿遵守，难以强制执行。

📌 行业态度尚不明朗

尽管 Sundar Pichai、Sam Altman 等人曾公开呼吁建立“数据许可系统”，但实际行动滞后。RSL 团队的态度是：

“你们说需要这样一个系统。现在，我们建好了。你们要不要兑现承诺？”

RSL 的意义：不只是钱，更是规则

RSL 的真正价值，不仅在于能否带来版税收入，更在于它尝试回答一个根本问题：

当 AI 开始消费整个互联网时，我们应该用什么样的规则来约束这种消费？

过去二十多年，互联网靠“开放共享”发展起来；未来十年，AI 若想可持续发展，也需要一套被广泛接受的“使用准则”。

RSL 提供了一个可能的答案：

对出版商：不再是被动受害者，而是可主张权利的参与者；
对 AI 公司：获得法律确定性，减少诉讼风险；
对用户：确保生成内容不会侵蚀原创生态。

正如 Walther 所强调：

“这不是反 AI，而是为了让 AI 更好地融入现有的互联网秩序。”

数据统计

暂无评论

暂无评论...