
在 AI 大模型狂飙突进的今天,一个讽刺的现实日益凸显:巨头们利用互联网上免费共享的海量信息训练出了强大的模型,随后却筑起高墙,推出严苛的数据政策,阻止任何人利用类似的方式构建自己的模型或数据集。
这就是“过河拆桥”。
DataClaw 不仅是一个工具,更是一场行为艺术项目。它的使命很简单却充满力量:把桥放回去。
DataClaw 允许你将私有的 Claude Code 和 Codex 对话历史,转化为结构化、脱敏后的公共数据集,并发布到 Hugging Face。通过这种方式,它将原本封闭在人机协作黑盒中的宝贵经验,重新变为可供全球开发者分享、学习和训练的未来基石。

核心理念:数据归你,智慧共享
- 所有权回归:生成的数据集完全归你所有,你有权决定如何分享。
- 去伪存真:自动解析会话日志,智能编辑掉 API 密钥、个人身份信息(PII)等敏感内容。
- 分布式未来:每次导出都会打上
dataclaw标签。假以时日,这些分散的贡献将汇聚成一个庞大的、关于真实世界人机协作编程的分布式数据集,打破巨头对高质量语料的垄断。
如何使用:六步打造你的数据贡献
DataClaw 设计为可与 AI 智能体(如 Claude Code 本身)协同工作。你只需将以下指令粘贴给你的智能体,它便会引导你完成全过程:
“帮我把我的 Claude Code 和 Codex 对话历史导出到 Hugging Face,使用 DataClaw 完成。安装它,设置好技能,然后引导我完成整个过程。”
详细操作手册
步骤 1:安装工具
pip install dataclaw
# 若失败,尝试源码安装:
# git clone https://github.com/banodoco/dataclaw.git /tmp/dataclaw && pip install /tmp/dataclaw
步骤 2:激活技能
让智能体具备操作 DataClaw 的能力:
dataclaw update-skill claude
步骤 3:准备与配置
运行准备命令,系统会提示后续步骤:
dataclaw prep
- 3A. 选择来源:明确指定要导出的数据来源(Claude Code, Codex, 或两者)。
dataclaw config --source "claude|codex|both" - 3B. 筛选项目:查看所有会话文件夹列表,并排除不想公开的项目。
dataclaw list --source "..." # 查看列表 dataclaw config --exclude "project1,project2" # 排除特定项目 dataclaw config --confirm-projects # 确认最终选择
步骤 4:审查与脱敏(关键步骤)
在正式发布前,必须进行本地审查,确保无隐私泄露:
dataclaw export --no-push --output /tmp/dataclaw_export.jsonl
- 系统会自动扫描 PII(个人身份信息)。
- 你可能需要提供全名以进行精确匹配扫描(若拒绝,可使用
--skip-full-name-scan)。 - 仔细检查输出,必要时手动编辑或添加排除项。
步骤 5:宣誓与确认
确认数据已安全,并签署发布声明:
dataclaw confirm --full-name "Your Name" --attest-full-name "..." --attest-sensitive "..." --attest-manual-scan "..."
步骤 6:发布到 Hugging Face
只有在用户明确批准后,才执行发布操作:
dataclaw export --publish-attestation "用户明确批准发布到 Hugging Face。"
注意:全程严禁直接运行 huggingface-cli login,务必使用 --token 参数以确保安全。
愿景:重建开源之桥
DataClaw 的每一步设计都充满了谨慎与责任感:从自动脱敏到多重确认,它确保用户在贡献数据的同时,绝不会牺牲隐私与安全。
这不仅仅是一次数据导出,这是一次宣言。它宣告了数据不应成为少数公司的私产,而应是全人类共同进化的燃料。当无数个 dataclaw 标记的数据集在 Hugging Face 上汇聚,我们将看到一幅前所未有的图景:真实的人类如何与 AI 协作、思考、纠错与创造。
把桥放回去,让后来者有路可走。
立即尝试 DataClaw,成为这场开源复兴运动的一部分。
数据统计
相关导航


Rust LLM from Scratch

GitPodcast

AIMedia

ALwrity

WorkflowAI

Refly







