DataClaw

1个月前发布 118 00

DataClaw 允许你将私有的 Claude Code 和 Codex 对话历史，转化为结构化、脱敏后的公共数据集，并发布到 Hugging Face。通过这种方式，它将原本封闭在人机协作黑盒中的宝贵经验，重新变为可供全球开发者分享、学习和训练的未来基石。

所在地：

美国

收录时间：

2026-02-26

打开网站手机查看

DataClaw

打开网站

在 AI 大模型狂飙突进的今天，一个讽刺的现实日益凸显：巨头们利用互联网上免费共享的海量信息训练出了强大的模型，随后却筑起高墙，推出严苛的数据政策，阻止任何人利用类似的方式构建自己的模型或数据集。

这就是“过河拆桥”。

DataClaw 不仅是一个工具，更是一场行为艺术项目。它的使命很简单却充满力量：把桥放回去。

DataClaw 允许你将私有的 Claude Code 和 Codex 对话历史，转化为结构化、脱敏后的公共数据集，并发布到 Hugging Face。通过这种方式，它将原本封闭在人机协作黑盒中的宝贵经验，重新变为可供全球开发者分享、学习和训练的未来基石。

核心理念：数据归你，智慧共享

所有权回归：生成的数据集完全归你所有，你有权决定如何分享。
去伪存真：自动解析会话日志，智能编辑掉 API 密钥、个人身份信息（PII）等敏感内容。
分布式未来：每次导出都会打上 dataclaw 标签。假以时日，这些分散的贡献将汇聚成一个庞大的、关于真实世界人机协作编程的分布式数据集，打破巨头对高质量语料的垄断。

如何使用：六步打造你的数据贡献

DataClaw 设计为可与 AI 智能体（如 Claude Code 本身）协同工作。你只需将以下指令粘贴给你的智能体，它便会引导你完成全过程：

“帮我把我的 Claude Code 和 Codex 对话历史导出到 Hugging Face，使用 DataClaw 完成。安装它，设置好技能，然后引导我完成整个过程。”

详细操作手册

步骤 1：安装工具

pip install dataclaw
# 若失败，尝试源码安装：
# git clone https://github.com/banodoco/dataclaw.git /tmp/dataclaw && pip install /tmp/dataclaw

步骤 2：激活技能
让智能体具备操作 DataClaw 的能力：

dataclaw update-skill claude

步骤 3：准备与配置
运行准备命令，系统会提示后续步骤：

dataclaw prep

3A. 选择来源：明确指定要导出的数据来源（Claude Code, Codex, 或两者）。
```
dataclaw config --source "claude|codex|both"
```

3B. 筛选项目：查看所有会话文件夹列表，并排除不想公开的项目。

dataclaw list --source "..."  # 查看列表
dataclaw config --exclude "project1,project2" # 排除特定项目
dataclaw config --confirm-projects # 确认最终选择

步骤 4：审查与脱敏（关键步骤）
在正式发布前，必须进行本地审查，确保无隐私泄露：

dataclaw export --no-push --output /tmp/dataclaw_export.jsonl

系统会自动扫描 PII（个人身份信息）。
你可能需要提供全名以进行精确匹配扫描（若拒绝，可使用 --skip-full-name-scan）。
仔细检查输出，必要时手动编辑或添加排除项。

步骤 5：宣誓与确认
确认数据已安全，并签署发布声明：

dataclaw confirm --full-name "Your Name" --attest-full-name "..." --attest-sensitive "..." --attest-manual-scan "..."

步骤 6：发布到 Hugging Face
只有在用户明确批准后，才执行发布操作：

dataclaw export --publish-attestation "用户明确批准发布到 Hugging Face。"

注意：全程严禁直接运行 huggingface-cli login，务必使用 --token 参数以确保安全。

愿景：重建开源之桥

DataClaw 的每一步设计都充满了谨慎与责任感：从自动脱敏到多重确认，它确保用户在贡献数据的同时，绝不会牺牲隐私与安全。

这不仅仅是一次数据导出，这是一次宣言。它宣告了数据不应成为少数公司的私产，而应是全人类共同进化的燃料。当无数个 dataclaw 标记的数据集在 Hugging Face 上汇聚，我们将看到一幅前所未有的图景：真实的人类如何与 AI 协作、思考、纠错与创造。

把桥放回去，让后来者有路可走。

立即尝试 DataClaw，成为这场开源复兴运动的一部分。

数据统计

暂无评论

暂无评论...

DataClaw

核心理念：数据归你，智慧共享

如何使用：六步打造你的数据贡献

详细操作手册

愿景：重建开源之桥

数据统计

相关导航

Littlebird

Build with Claude

Zread

OpenHands GitHub Launcher

Visual Story-Writing

GLM-PC

OpenAI Codex CLI

markdown.new

暂无评论

网址

S.H.I.T

waoo

Joker of Academics（小丑学术期刊）

新Flova

ITELLOU

Impeccable

S.H.I.T

waoo

Joker of Academics（小丑学术期刊）

新Flova

ITELLOU

Impeccable

DataClaw

核心理念：数据归你，智慧共享

如何使用：六步打造你的数据贡献

详细操作手册

愿景：重建开源之桥

数据统计

相关导航

Littlebird

Build with Claude

Zread

OpenHands GitHub Launcher

Visual Story-Writing

GLM-PC

OpenAI Codex CLI

markdown.new

暂无评论

网址

S.H.I.T

waoo

Joker of Academics（小丑学术期刊 ）

新Flova

ITELLOU

Impeccable

标签云

网址

S.H.I.T

waoo

Joker of Academics（小丑学术期刊 ）

新Flova

ITELLOU

Impeccable

Joker of Academics（小丑学术期刊）

Joker of Academics（小丑学术期刊）