RSL

3个月前发布 100 00

Really Simple Licensing (RSL) 是在 RSS 标准早期理念基础上的进一步发展。RSL 标准对这些理念进行了扩展和通用化,加入了明确的授权条款,使发布者能够以机器可读的方式,定义对其内容进行抓取和处理时的补偿与使用条件。

所在地:
美国
收录时间:
2025-09-21
其他站点:

在 Anthropic 同意支付 15 亿美元解决版权诉讼之后,AI 行业正面临一场关于训练数据合法性的系统性拷问。目前,全球有近 40 起未决诉讼指向 AI 公司未经授权使用网络内容进行模型训练——从新闻文本到艺术图像,无一幸免。

Midjourney 因生成“超人”图像被漫画公司起诉;Stability AI 被指控复制数百万张艺术家作品;谷歌的 AI 摘要功能也被质疑侵犯出版商权益。

RSL

如果缺乏一种广泛接受的数据许可机制,这类诉讼可能演变为长期法律负担,甚至限制技术发展路径。

现在,一个由互联网老将推动的新方案正在浮现:Real Simple LicensingRSL ——一个旨在为 AI 训练数据建立规模化许可体系的技术与法律框架。

其联合创始人之一,正是 RSS 1.0 的共同创建者 Eckart Walther。他和团队的目标很明确:

“我们需要为互联网制定机器可读的许可协议。这正是 RSL 解决的问题。”

RSL 是什么?它如何工作?

RSL 并非简单的道德倡议或个别授权协议,而是一套结合技术标准 + 法律基础设施的完整系统,目标是实现“谁的数据、谁受益”的公平原则。

它包含两个核心组成部分:

1. 技术层:机器可读的许可声明

  • 参与网站在其 robots.txt 文件中添加标准化字段,声明其内容是否允许用于 AI 训练;
  • 支持多种许可模式:
    • 自定义条款(如 Reddit 与 Google 的私有协议)
    • Creative Commons 类型授权
    • 集体管理许可(通过 RSL Collective)

这意味着 AI 公司在抓取前即可自动识别某站点的使用规则,无需人工谈判每一份授权。

示例:
User-agent: AI-Training-Bot
Allow: /
License: RSL-NC-ND-2024
(表示允许非商业用途、禁止演绎)

这种设计借鉴了 RSS 和 robots.txt 的开放精神,延续了 Web 开放协议的传统。

2. 法律层:RSL Collective —— 数据版税的“集体收缴机构”

为了简化交易成本,RSL 成立了 RSL Collective,类似于音乐行业的 ASCAP 或电影领域的 MPLC:

  • 代表成员出版商统一谈判许可条款;
  • 向 AI 公司收取版税并按比例分配;
  • 提供单一支付接口,降低合规复杂度。

目前已加入该集体的重要出版商包括:

  • Reddit
  • Yahoo
  • Medium
  • O’Reilly Media
  • Ziff Davis(Mashable、CNET 所有者)
  • Internet Brands(WebMD 所有者)
  • The Daily Beast
  • People.com

另有 Fastly、Quora、Adweek 等支持协议但暂未加入集体。

值得注意的是,即使已有单独协议的公司也可参与。例如 Reddit 已与谷歌达成年费约 6000 万美元的数据授权,但这并不妨碍它同时通过 RSL Collective 与其他 AI 实验室建立新合作——就像 Taylor Swift 既可通过 ASCAP 收取公共演出费,也能单独授权品牌广告。

为什么小出版商尤其需要 RSL?

大型平台或许有能力与 AI 公司一对一谈判,但绝大多数中小型内容创作者根本没有议价能力。

他们面临两难:

  • 不授权 → 数据被无偿使用;
  • 自主授权 → 缺乏法律资源和技术手段追踪使用情况。

RSL 正是为此类出版商提供了一条“搭便车”的路径:只要在 robots.txt 中声明许可,就能通过集体机制获得回报,而无需组建法务团队或开发监测系统。

正如 RSL 联合创始人、前 IAC Publishing CEO Doug Leeds 所说:

“他们不需要完美地知道每一比特数据何时被用了。只需要足够好,让人们得到报酬。”

最大挑战:AI 公司会买账吗?

技术可行不等于生态采纳。RSL 面临的核心问题是:

前沿 AI 实验室是否会放弃“免费抓取”,转而采用这套许可体系?

目前,许多公司依赖像 Common Crawl 这样的公开数据集,其中包含了数十亿网页的副本,且长期被视为“可用即合法”。要让这些企业转向付费模式,并非易事。

此外,还有几个现实难题:

📌 使用追溯难

LLM 的训练过程通常是批处理式的,一旦完成,几乎无法确认某个特定文档是否曾被摄入。若出版商要求“按推理次数计费”(pay-per-inference),技术上极难实现精确计量。

不过 Leeds 认为这并非不可克服:

“一些现有许可协议已经要求 AI 公司报告数据使用情况。它不必完美,只要可信即可。”

📌 浏览 vs. 抓取的边界模糊

Cloudflare 与 Perplexity 近期争议表明,AI 公司常以“用户代理”身份模拟人类浏览行为获取内容,规避 robots.txt 限制。RSL 依赖于自愿遵守,难以强制执行。

📌 行业态度尚不明朗

尽管 Sundar Pichai、Sam Altman 等人曾公开呼吁建立“数据许可系统”,但实际行动滞后。RSL 团队的态度是:

“你们说需要这样一个系统。现在,我们建好了。你们要不要兑现承诺?”

RSL 的意义:不只是钱,更是规则

RSL 的真正价值,不仅在于能否带来版税收入,更在于它尝试回答一个根本问题:

当 AI 开始消费整个互联网时,我们应该用什么样的规则来约束这种消费?

过去二十多年,互联网靠“开放共享”发展起来;未来十年,AI 若想可持续发展,也需要一套被广泛接受的“使用准则”。

RSL 提供了一个可能的答案:

  • 对出版商:不再是被动受害者,而是可主张权利的参与者;
  • 对 AI 公司:获得法律确定性,减少诉讼风险;
  • 对用户:确保生成内容不会侵蚀原创生态。

正如 Walther 所强调:

“这不是反 AI,而是为了让 AI 更好地融入现有的互联网秩序。”

数据统计

相关导航

暂无评论

none
暂无评论...