DataFlow

7个月前发布 568 00

DataFlow 是一个数据准备系统，旨在从噪声数据源（PDF、纯文本、低质量问答）中解析，生成，加工并评估高质量数据，以提升大语言模型（LLMs）在特定领域的表现，支持预训练、监督微调（SFT）、强化学习训练以及基于知识库的 RAG 系统。我们在医疗、金融和法律等多个垂类领域实证验证了 DataFlow 的有效性。

所在地：

中国

收录时间：

2025-09-09

其他站点:

官方文档官网

打开网站手机查看

AI工具 # DataFlow # 数据准备系统

DataFlow

打开网站

在大语言模型（LLM）的训练与应用中，数据质量往往比模型结构更关键。尤其在医疗、金融、法律等专业领域，噪声数据（如 PDF、网页文本、低质问答）严重影响模型性能。

DataFlow ——一个专为提升 LLM 在垂类领域表现而设计的全流程数据准备系统。它能从原始噪声数据中解析、生成、加工并评估高质量训练数据，支持：

预训练语料清洗
监督微调（SFT）
强化学习（RL）训练
知识增强型 RAG 系统构建

已在医疗、金融、法律等多个领域完成实证验证。

系统架构：算子 + 流水线 + Agent

DataFlow 采用模块化设计，由三大核心组件构成：

1. 数据算子（Operators）——处理的基本单元

每个算子是一个可复用的数据处理函数，接收结构化输入（JSON/JSONL/CSV），输出高质量数据。按功能分为三类：

类型	数量	功能说明
通用算子	80+	文本清洗、去重、重写、合成、格式转换等
领域专用算子	40+	医疗术语标准化、金融指标提取、法律条文匹配等
评估算子	20+	从准确性、一致性、可读性、专业性、多样性、安全性六大维度评估数据质量

所有算子支持本地调用或 API 接入，便于集成。

2. 数据流水线（Pipelines）——标准化处理流程

基于算子组合，DataFlow 提供多条预设流水线，覆盖典型数据需求：

流水线	功能
文本处理流程（Text Pipeline）	从大规模纯文本（如网页爬虫数据）中挖掘高质量问答对，用于 SFT 与 RL 训练
推理增强流程（Reasoning Pipeline）	对现有问答对添加链式推理（Chain-of-Thought）、难度标注与类别标签，提升模型思维能力
Text2SQL 流程	将自然语言问题转化为 SQL 查询，附带思维链解释与数据库上下文，适用于代码模型训练
知识库清洗流程	从 PDF、Word、表格等非结构化文档中提取结构化知识，构建 RAG 可用的知识条目
Agent式RAG流程	挖掘需外部知识作答的问答对，用于训练具备主动检索能力的 Agentic RAG 模型

每条流水线均可独立运行，也可嵌入更大训练流程。

3. DataFlow-Agent：智能编排引擎

传统流水线依赖人工配置，而 DataFlow-Agent 是一个具备自主决策能力的 AI 助手，能够：

分析任务目标与输入数据特征；
自动选择并编排合适的算子组合；
动态生成新的数据处理流水线；
支持编写自定义算子代码（Python/C++）。

例如：给定“构建金融领域推理数据集”任务，Agent 可自动调用金融术语标准化、CoT 增强、难度分级等算子，生成完整流程。

智能平台支持：ADP 在线系统

除本地 Gradio 界面外，DataFlow 已接入 ADP 智能数据平台（https://adp.originhub.tech），提供 Web 化操作体验。

ADP 是 OriginHub 推出的企业级 AI 数据平台，具备四大核心能力：

✅ DataFlow 全流程自动化：可视化编排、批量处理、任务调度
✅ 多模态知识库融合：支持文本、图像、表格、数据库联合管理
✅ 多 Agent 协同机制：多个专业 Agent 分工协作，提升处理效率
✅ AI 数据库支持：支撑数据版本管理、溯源与权限控制

帮助企业将私有数据高效转化为 AI 可用资产。

实证效果：显著提升模型性能

1. 预训练数据过滤

应用于 RedPajama 子集，最终保留率 13.65%
使用 QuratingScorer 评估显示，过滤后数据在以下维度显著优于原始数据：
- 写作风格
- 专业性
- 事实准确性
- 教育价值

表明 DataFlow 能有效识别并保留高价值预训练语料。

2. SFT 数据质量验证

从 Alpaca 数据集中筛选 3000 条高质量样本 vs. 随机选取 3000 条
在 Qwen2.5-7B 上进行微调对比
结果显示：使用筛选数据训练的模型，在指令遵循与事实准确性上表现更优

3. 推理能力提升（Reasoning Pipeline）

使用增强后的 1k / 5k 数据对 Qwen2.5-32B-Instruct 进行 SFT
模型在 MATH、GSM8K 等数学推理任务上准确率显著提升
CoT 生成更完整，逻辑链更清晰

4. Text2SQL 训练效果

构建高质量 SQL 训练集，用于 Qwen2.5-Coder-7B-Instruct
经 SFT 与 RL 训练后，模型在 Spider、WikiSQL 等基准上执行准确率大幅提升
生成的 SQL 更符合数据库约束，错误率降低

为什么选择 DataFlow？

优势	说明
✅ 领域适配性强	提供医疗、金融、法律等专用算子，贴近真实业务场景
✅ 全流程覆盖	从原始数据到可用训练集，一站式处理
✅ 可解释性高	所有处理步骤可追溯，避免“黑盒”清洗
✅ 灵活可扩展	支持自定义算子与流水线，适配企业私有需求
✅ 支持 Agent 自动化	降低人工干预成本，提升数据生产效率

数据统计

暂无评论

暂无评论...