近日,开源人工智能研究组织 EleutherAI 正式发布了名为 The Common Pile v0.1 的全新训练数据集。该数据集据称是目前用于训练 AI 模型的最大合法授权+公共领域文本集合之一,标志着 AI 领域向更透明、合规方向迈出的重要一步。
此次发布的数据集由 EleutherAI 与初创公司 Poolside、Hugging Face 及多家学术机构合作完成,历时约两年构建,总规模达 8TB,并已用于训练两个新模型:Comma v0.1-1T 和 Comma v0.1-2T。

EleutherAI 强调,这两个模型在多个基准测试中表现出与使用非授权数据训练的模型相当甚至更优的性能,证明了高质量、合法来源的数据足以支撑高性能 AI 训练。
背景:版权争议下的 AI 数据困境
近年来,包括 OpenAI 在内的多家 AI 公司因使用网络爬取的版权内容(如书籍、期刊、新闻)进行模型训练而面临法律挑战。虽然部分企业已开始与出版商达成授权协议,但大多数仍依赖“合理使用”原则来规避法律责任。
这种做法引发了广泛争议,也导致 AI 领域的研究透明度大幅下降。EleutherAI 执行主任 Stella Biderman 在 Hugging Face 博客中指出:
“诉讼并未显著改变训练数据的获取方式,但它们极大地降低了公司的透明度。我们与一些公司研究人员交谈时,他们明确表示这些法律压力是他们无法公开高度依赖数据驱动的研究的原因。”
The Common Pile v0.1:合法、开放、可复现
为应对这一问题,EleutherAI 推出了 The Common Pile v0.1,一个完全基于合法授权与公共领域资源构建的大规模训练数据集。

✅ 数据来源:
- 来自 国会图书馆 和 互联网档案馆 的超过 300,000 本公共领域书籍
- 使用 OpenAI 开源语音识别模型 Whisper 转录的音频内容
- 所有数据均经过法律专家审核,确保合规性
📁 技术规格:
- 总大小:8TB
- 提供形式:可通过 Hugging Face 平台及 GitHub 获取
- 目标用途:支持 AI 研究人员和开发者构建合规且高性能的 AI 模型
Comma v0.1 系列模型:用开放数据打造高性能基础模型
基于 The Common Pile v0.1,EleutherAI 训练出两款 70 亿参数模型:
| 模型名称 | 参数量 | 特点 |
|---|---|---|
| Comma v0.1-1T | 7B | 使用约 1TB 数据训练 |
| Comma v0.1-2T | 7B | 使用约 2TB 数据训练 |
尽管仅使用了 The Common Pile v0.1 中的一部分数据,这两款模型在多个任务上表现优异,尤其在代码生成、数学推理和图像理解等关键基准测试中,已经能够媲美 Meta 的 Llama 系列模型。
EleutherAI 表示,这些成果有力反驳了“只有未经许可的内容才能提升模型性能”的观点。
目标与意义:重建开放 AI 生态
EleutherAI 表示,The Common Pile v0.1 的推出不仅是技术上的突破,更是对过去错误的一次反思。
此前,EleutherAI 曾发布过包含版权材料的训练集 The Pile,被多方批评并引发法律风险。此次推出的 The Common Pile 则从源头上避免了这些问题。
EleutherAI 希望通过这种方式鼓励更多研究者使用可审计、可追踪、合法合规的数据集进行 AI 研究,推动行业朝着更加开放和负责任的方向发展。
比德曼强调:
“我们认为‘未经许可的数据是性能提升的关键’这一观点缺乏实证依据。随着开放授权和公共领域数据的持续增长,我们可以预期,未来基于开放许可内容训练的模型质量将不断提升。”
未来计划:持续推动开放数据生态建设
EleutherAI 表示,未来将继续与研究机构、基础设施提供商合作,定期发布更新版本的数据集,并进一步扩展其模型训练能力。
此外,该组织呼吁更多企业和研究团队加入开放数据运动,共同构建一个更具透明性、可解释性与可持续性的 AI 发展环境。
走向合规与透明的 AI 训练新时代
The Common Pile v0.1 不只是一个数据集,它代表着 AI 社群对数据伦理、版权合规与研究开放性的新一轮探索。
在当前全球 AI 监管日益严格的背景下,EleutherAI 的这一举措具有重要的示范意义:
- 它表明开放、合法的数据也能训练出高性能模型
- 它为学术界和中小企业提供了替代闭源数据的可行路径
- 它推动了整个 AI 领域向更高透明度与更强可复现性迈进
对于关注 AI 合规性、模型可解释性以及开源生态发展的开发者、研究人员和政策制定者而言,The Common Pile v0.1 是一个值得关注的里程碑项目。















