
在大语言模型(LLM)的训练与应用中,数据质量往往比模型结构更关键。尤其在医疗、金融、法律等专业领域,噪声数据(如 PDF、网页文本、低质问答)严重影响模型性能。
DataFlow ——一个专为提升 LLM 在垂类领域表现而设计的全流程数据准备系统。它能从原始噪声数据中解析、生成、加工并评估高质量训练数据,支持:
- 预训练语料清洗
- 监督微调(SFT)
- 强化学习(RL)训练
- 知识增强型 RAG 系统构建
已在医疗、金融、法律等多个领域完成实证验证。
系统架构:算子 + 流水线 + Agent
DataFlow 采用模块化设计,由三大核心组件构成:
1. 数据算子(Operators)——处理的基本单元
每个算子是一个可复用的数据处理函数,接收结构化输入(JSON/JSONL/CSV),输出高质量数据。按功能分为三类:
| 类型 | 数量 | 功能说明 |
|---|---|---|
| 通用算子 | 80+ | 文本清洗、去重、重写、合成、格式转换等 |
| 领域专用算子 | 40+ | 医疗术语标准化、金融指标提取、法律条文匹配等 |
| 评估算子 | 20+ | 从准确性、一致性、可读性、专业性、多样性、安全性六大维度评估数据质量 |
所有算子支持本地调用或 API 接入,便于集成。
2. 数据流水线(Pipelines)——标准化处理流程
基于算子组合,DataFlow 提供多条预设流水线,覆盖典型数据需求:
| 流水线 | 功能 |
|---|---|
| 文本处理流程(Text Pipeline) | 从大规模纯文本(如网页爬虫数据)中挖掘高质量问答对,用于 SFT 与 RL 训练 |
| 推理增强流程(Reasoning Pipeline) | 对现有问答对添加链式推理(Chain-of-Thought)、难度标注与类别标签,提升模型思维能力 |
| Text2SQL 流程 | 将自然语言问题转化为 SQL 查询,附带思维链解释与数据库上下文,适用于代码模型训练 |
| 知识库清洗流程 | 从 PDF、Word、表格等非结构化文档中提取结构化知识,构建 RAG 可用的知识条目 |
| Agent式RAG流程 | 挖掘需外部知识作答的问答对,用于训练具备主动检索能力的 Agentic RAG 模型 |
每条流水线均可独立运行,也可嵌入更大训练流程。
3. DataFlow-Agent:智能编排引擎
传统流水线依赖人工配置,而 DataFlow-Agent 是一个具备自主决策能力的 AI 助手,能够:
- 分析任务目标与输入数据特征;
- 自动选择并编排合适的算子组合;
- 动态生成新的数据处理流水线;
- 支持编写自定义算子代码(Python/C++)。
例如:给定“构建金融领域推理数据集”任务,Agent 可自动调用金融术语标准化、CoT 增强、难度分级等算子,生成完整流程。
智能平台支持:ADP 在线系统
除本地 Gradio 界面外,DataFlow 已接入 ADP 智能数据平台(https://adp.originhub.tech),提供 Web 化操作体验。
ADP 是 OriginHub 推出的企业级 AI 数据平台,具备四大核心能力:
- ✅ DataFlow 全流程自动化:可视化编排、批量处理、任务调度
- ✅ 多模态知识库融合:支持文本、图像、表格、数据库联合管理
- ✅ 多 Agent 协同机制:多个专业 Agent 分工协作,提升处理效率
- ✅ AI 数据库支持:支撑数据版本管理、溯源与权限控制
帮助企业将私有数据高效转化为 AI 可用资产。
实证效果:显著提升模型性能
1. 预训练数据过滤
- 应用于 RedPajama 子集,最终保留率 13.65%
- 使用 QuratingScorer 评估显示,过滤后数据在以下维度显著优于原始数据:
- 写作风格
- 专业性
- 事实准确性
- 教育价值
表明 DataFlow 能有效识别并保留高价值预训练语料。
2. SFT 数据质量验证
- 从 Alpaca 数据集中筛选 3000 条高质量样本 vs. 随机选取 3000 条
- 在 Qwen2.5-7B 上进行微调对比
- 结果显示:使用筛选数据训练的模型,在指令遵循与事实准确性上表现更优
3. 推理能力提升(Reasoning Pipeline)
- 使用增强后的 1k / 5k 数据对 Qwen2.5-32B-Instruct 进行 SFT
- 模型在 MATH、GSM8K 等数学推理任务上准确率显著提升
- CoT 生成更完整,逻辑链更清晰
4. Text2SQL 训练效果
- 构建高质量 SQL 训练集,用于 Qwen2.5-Coder-7B-Instruct
- 经 SFT 与 RL 训练后,模型在 Spider、WikiSQL 等基准上执行准确率大幅提升
- 生成的 SQL 更符合数据库约束,错误率降低
为什么选择 DataFlow?
| 优势 | 说明 |
|---|---|
| ✅ 领域适配性强 | 提供医疗、金融、法律等专用算子,贴近真实业务场景 |
| ✅ 全流程覆盖 | 从原始数据到可用训练集,一站式处理 |
| ✅ 可解释性高 | 所有处理步骤可追溯,避免“黑盒”清洗 |
| ✅ 灵活可扩展 | 支持自定义算子与流水线,适配企业私有需求 |
| ✅ 支持 Agent 自动化 | 降低人工干预成本,提升数据生产效率 |
数据统计
相关导航


MarkItDown MCP

WriteHERE

Memobase

UQLM

FalkorDB

Uare.AI







