DataFlow

3个月前发布 398 00

DataFlow 是一个数据准备系统,旨在从噪声数据源(PDF、纯文本、低质量问答)中解析,生成,加工并评估高质量数据,以提升大语言模型(LLMs)在特定领域的表现,支持预训练、监督微调(SFT)、强化学习训练以及基于知识库的 RAG 系统。我们在医疗、金融和法律等多个垂类领域实证验证了 DataFlow 的有效性。

所在地:
中国
收录时间:
2025-09-09
其他站点:
DataFlowDataFlow

在大语言模型(LLM)的训练与应用中,数据质量往往比模型结构更关键。尤其在医疗、金融、法律等专业领域,噪声数据(如 PDF、网页文本、低质问答)严重影响模型性能。

DataFlow ——一个专为提升 LLM 在垂类领域表现而设计的全流程数据准备系统。它能从原始噪声数据中解析、生成、加工并评估高质量训练数据,支持:

  • 预训练语料清洗
  • 监督微调(SFT)
  • 强化学习(RL)训练
  • 知识增强型 RAG 系统构建

已在医疗、金融、法律等多个领域完成实证验证。

系统架构:算子 + 流水线 + Agent

DataFlow 采用模块化设计,由三大核心组件构成:

1. 数据算子(Operators)——处理的基本单元

每个算子是一个可复用的数据处理函数,接收结构化输入(JSON/JSONL/CSV),输出高质量数据。按功能分为三类:

类型数量功能说明
通用算子80+文本清洗、去重、重写、合成、格式转换等
领域专用算子40+医疗术语标准化、金融指标提取、法律条文匹配等
评估算子20+准确性、一致性、可读性、专业性、多样性、安全性六大维度评估数据质量

所有算子支持本地调用或 API 接入,便于集成。

2. 数据流水线(Pipelines)——标准化处理流程

基于算子组合,DataFlow 提供多条预设流水线,覆盖典型数据需求:

流水线功能
文本处理流程(Text Pipeline)从大规模纯文本(如网页爬虫数据)中挖掘高质量问答对,用于 SFT 与 RL 训练
推理增强流程(Reasoning Pipeline)对现有问答对添加链式推理(Chain-of-Thought)、难度标注与类别标签,提升模型思维能力
Text2SQL 流程将自然语言问题转化为 SQL 查询,附带思维链解释与数据库上下文,适用于代码模型训练
知识库清洗流程从 PDF、Word、表格等非结构化文档中提取结构化知识,构建 RAG 可用的知识条目
Agent式RAG流程挖掘需外部知识作答的问答对,用于训练具备主动检索能力的 Agentic RAG 模型

每条流水线均可独立运行,也可嵌入更大训练流程。

3. DataFlow-Agent:智能编排引擎

传统流水线依赖人工配置,而 DataFlow-Agent 是一个具备自主决策能力的 AI 助手,能够:

  • 分析任务目标与输入数据特征;
  • 自动选择并编排合适的算子组合;
  • 动态生成新的数据处理流水线;
  • 支持编写自定义算子代码(Python/C++)。

例如:给定“构建金融领域推理数据集”任务,Agent 可自动调用金融术语标准化、CoT 增强、难度分级等算子,生成完整流程。

智能平台支持:ADP 在线系统

除本地 Gradio 界面外,DataFlow 已接入 ADP 智能数据平台https://adp.originhub.tech),提供 Web 化操作体验。

ADP 是 OriginHub 推出的企业级 AI 数据平台,具备四大核心能力:

  • ✅ DataFlow 全流程自动化:可视化编排、批量处理、任务调度
  • ✅ 多模态知识库融合:支持文本、图像、表格、数据库联合管理
  • ✅ 多 Agent 协同机制:多个专业 Agent 分工协作,提升处理效率
  • ✅ AI 数据库支持:支撑数据版本管理、溯源与权限控制

帮助企业将私有数据高效转化为 AI 可用资产。

实证效果:显著提升模型性能

1. 预训练数据过滤

  • 应用于 RedPajama 子集,最终保留率 13.65%
  • 使用 QuratingScorer 评估显示,过滤后数据在以下维度显著优于原始数据:
    • 写作风格
    • 专业性
    • 事实准确性
    • 教育价值

表明 DataFlow 能有效识别并保留高价值预训练语料。

2. SFT 数据质量验证

  • 从 Alpaca 数据集中筛选 3000 条高质量样本 vs. 随机选取 3000 条
  • 在 Qwen2.5-7B 上进行微调对比
  • 结果显示:使用筛选数据训练的模型,在指令遵循与事实准确性上表现更优

3. 推理能力提升(Reasoning Pipeline)

  • 使用增强后的 1k / 5k 数据对 Qwen2.5-32B-Instruct 进行 SFT
  • 模型在 MATH、GSM8K 等数学推理任务上准确率显著提升
  • CoT 生成更完整,逻辑链更清晰

4. Text2SQL 训练效果

  • 构建高质量 SQL 训练集,用于 Qwen2.5-Coder-7B-Instruct
  • 经 SFT 与 RL 训练后,模型在 Spider、WikiSQL 等基准上执行准确率大幅提升
  • 生成的 SQL 更符合数据库约束,错误率降低

为什么选择 DataFlow?

优势说明
✅ 领域适配性强提供医疗、金融、法律等专用算子,贴近真实业务场景
✅ 全流程覆盖从原始数据到可用训练集,一站式处理
✅ 可解释性高所有处理步骤可追溯,避免“黑盒”清洗
✅ 灵活可扩展支持自定义算子与流水线,适配企业私有需求
✅ 支持 Agent 自动化降低人工干预成本,提升数据生产效率

数据统计

相关导航

暂无评论

none
暂无评论...