上周,由微软与 OpenAI 联合资助、起源于哈佛大学法学院图书馆研究计划的 机构资料计划(Institutional Data Initiative,简称 IDI)宣布开源其首个大型 AI 数据集——Institutional Books 1.0。
该数据集包含 98.3 万本哈佛图书馆藏书,总计 3.86 亿页内容,涵盖 245 种语言,共计 2420 亿个 Token,是目前最全面、最具代表性的开放图书语料库之一。

这一举措标志着学术资源向人工智能训练数据开放的重要一步,也为未来高质量、负责任的数据使用提供了范式。
什么是 IDI?
IDI 是一个致力于推动知识机构数字化与数据开放的合作项目,于 2023 年 12 月正式启动。其执行董事 Greg Leppert 表示:
“AI 技术的发展引发了人们对高质量历史资料的重新关注。我们希望帮助各类知识机构将这些珍贵资料整理、分析并开放出来,为所有人所用。”
IDI 的合作对象包括图书馆、大学、文化机构及政府单位等,目标是通过建立标准化流程,协助这些机构将其馆藏转化为可用于 AI 训练、研究和教育的数据资源。
IDI 的核心任务
IDI 致力于以下几个方向:
- 开发 AI 工具,以提升资料处理效率;
- 分析馆藏内容,评估其对 AI 模型的影响;
- 探索最佳实践,确保数据使用的责任与透明;
- 建立统一标准,让不同机构的数据更具一致性与可用性。
简而言之,IDI 的使命是打造“人人可用、易于理解、结构清晰”的知识图谱,连接传统文献与现代 AI 应用。
Institutional Books 1.0 内容概览
此次发布的 Institutional Books 1.0 数据集具有以下特点:
- 来自哈佛图书馆参与 Google Books 项目时已数字化的内容;
- 其中约 40% 为英文书籍;
- 涵盖 20 个主题分类;
- 多数书籍出版于 19 至 20 世纪;
- 不仅包含文字内容,还附有丰富的 元数据,如作者、出版年份、语言和来源信息。
此外,数据集经过 OCR 后处理优化,系统识别出每行文字的位置与类型,并据此重新组织文本排版,使其更接近原始书籍的结构与逻辑,大大提升了阅读与训练效果。
未来计划与扩展方向
IDI 表示,这只是第一步。他们正与 波士顿公共图书馆 合作,扫描大量历史报纸内容。由于报纸版面复杂,提取难度远高于普通书籍,因此需要开发新的方法来提高识别准确率与数据可访问性。
接下来,IDI 还将探索这些资料对 AI 模型行为与信息检索能力的影响,以便其他机构也能了解自身馆藏的价值与潜力。
同时,IDI 也在积极寻求更多类型的资料合作,包括科学论文与生物医学数据。虽然优先考虑开源共享,但也会尊重各机构对数据管理的自主权,确保过程合规、可控。















