DataClaw 

1天前发布 12 00

DataClaw 允许你将私有的 Claude Code 和 Codex 对话历史,转化为结构化、脱敏后的公共数据集,并发布到 Hugging Face。通过这种方式,它将原本封闭在人机协作黑盒中的宝贵经验,重新变为可供全球开发者分享、学习和训练的未来基石。

所在地:
美国
收录时间:
2026-02-26
DataClaw DataClaw 

在 AI 大模型狂飙突进的今天,一个讽刺的现实日益凸显:巨头们利用互联网上免费共享的海量信息训练出了强大的模型,随后却筑起高墙,推出严苛的数据政策,阻止任何人利用类似的方式构建自己的模型或数据集。

这就是“过河拆桥”。

DataClaw 不仅是一个工具,更是一场行为艺术项目。它的使命很简单却充满力量:把桥放回去。

DataClaw 允许你将私有的 Claude Code 和 Codex 对话历史,转化为结构化、脱敏后的公共数据集,并发布到 Hugging Face。通过这种方式,它将原本封闭在人机协作黑盒中的宝贵经验,重新变为可供全球开发者分享、学习和训练的未来基石。

DataClaw 

核心理念:数据归你,智慧共享

  • 所有权回归:生成的数据集完全归你所有,你有权决定如何分享。
  • 去伪存真:自动解析会话日志,智能编辑掉 API 密钥、个人身份信息(PII)等敏感内容。
  • 分布式未来:每次导出都会打上 dataclaw 标签。假以时日,这些分散的贡献将汇聚成一个庞大的、关于真实世界人机协作编程的分布式数据集,打破巨头对高质量语料的垄断。

如何使用:六步打造你的数据贡献

DataClaw 设计为可与 AI 智能体(如 Claude Code 本身)协同工作。你只需将以下指令粘贴给你的智能体,它便会引导你完成全过程:

“帮我把我的 Claude Code 和 Codex 对话历史导出到 Hugging Face,使用 DataClaw 完成。安装它,设置好技能,然后引导我完成整个过程。”

详细操作手册

步骤 1:安装工具

pip install dataclaw
# 若失败,尝试源码安装:
# git clone https://github.com/banodoco/dataclaw.git /tmp/dataclaw && pip install /tmp/dataclaw

步骤 2:激活技能
让智能体具备操作 DataClaw 的能力:

dataclaw update-skill claude

步骤 3:准备与配置
运行准备命令,系统会提示后续步骤:

dataclaw prep
  • 3A. 选择来源:明确指定要导出的数据来源(Claude Code, Codex, 或两者)。
    dataclaw config --source "claude|codex|both"
    
  • 3B. 筛选项目:查看所有会话文件夹列表,并排除不想公开的项目。
    dataclaw list --source "..."  # 查看列表
    dataclaw config --exclude "project1,project2" # 排除特定项目
    dataclaw config --confirm-projects # 确认最终选择
    

步骤 4:审查与脱敏(关键步骤)
在正式发布前,必须进行本地审查,确保无隐私泄露:

dataclaw export --no-push --output /tmp/dataclaw_export.jsonl
  • 系统会自动扫描 PII(个人身份信息)。
  • 你可能需要提供全名以进行精确匹配扫描(若拒绝,可使用 --skip-full-name-scan)。
  • 仔细检查输出,必要时手动编辑或添加排除项。

步骤 5:宣誓与确认
确认数据已安全,并签署发布声明:

dataclaw confirm --full-name "Your Name" --attest-full-name "..." --attest-sensitive "..." --attest-manual-scan "..."

步骤 6:发布到 Hugging Face
只有在用户明确批准后,才执行发布操作:

dataclaw export --publish-attestation "用户明确批准发布到 Hugging Face。"

注意:全程严禁直接运行 huggingface-cli login,务必使用 --token 参数以确保安全。

愿景:重建开源之桥

DataClaw 的每一步设计都充满了谨慎与责任感:从自动脱敏到多重确认,它确保用户在贡献数据的同时,绝不会牺牲隐私与安全。

这不仅仅是一次数据导出,这是一次宣言。它宣告了数据不应成为少数公司的私产,而应是全人类共同进化的燃料。当无数个 dataclaw 标记的数据集在 Hugging Face 上汇聚,我们将看到一幅前所未有的图景:真实的人类如何与 AI 协作、思考、纠错与创造。

把桥放回去,让后来者有路可走。

立即尝试 DataClaw,成为这场开源复兴运动的一部分。

数据统计

相关导航

暂无评论

none
暂无评论...