
Grok prompts
xAI 团队通过其官方仓库开源了多个 Grok 的核心系统提示词(system prompts),涵盖 grok.com 和 Twitter/X 平台上的多项功能。这些提示词揭示了 Grok 背后交互机制的关键设计思路,为开发者和研究人员提供了宝贵的参考资源。
OCRFlux 是一个基于多模态大语言模型的工具包,可以将 PDF 和图像转换为干净、可读的纯 Markdown 文本,显著提升当前技术水平。
OCRFlux 是一款基于 多模态大语言模型(VLM) 的工具包,专为将 PDF 文档和图像转换为结构清晰、可读性强的 Markdown 文本 而设计。它在处理复杂文档布局、跨页内容及高质量表格解析方面表现出色,显著优于现有开源和商业 OCR 工具。


| 语言 | 模型名称 | EDS 提升幅度 |
|---|---|---|
| 英文 | olmOCR-7B → OCRFlux-3B | +0.086 |
| 中文 | olmOCR-7B → OCRFlux-3B | +0.103 |
| 总体 | olmOCR-7B → OCRFlux-3B | +0.095 |
| 表格类型 | olmOCR-7B 成绩 | OCRFlux-3B 成绩 | TEDS 提升幅度 |
|---|---|---|---|
| 简单 | 0.810 | 0.912 | +0.102 |
| 复杂 | 0.676 | 0.807 | +0.131 |
| 总体 | 0.744 | 0.861 | +0.117 |
EDS(编辑距离相似度)和 TEDS(树编辑距离相似度)越高,表示与真值越接近,质量越好。
OCRFlux 是首个全面支持 跨页内容自动检测与合并 的开源 OCR 工具,适用于金融报告、学术论文等长文档场景。
| 指标 | 英文样本 | 中文样本 | 综合得分 |
|---|---|---|---|
| Accuracy | 0.978 | 0.994 | 0.986 |
| F1 Score | 0.978 | 0.994 | 0.986 |
| 表格类型 | TEDS 得分 |
|---|---|
| 简单 | 0.965 |
| 复杂 | 0.935 |
| 总体 | 0.950 |
OCRFlux-bench-single:单页解析质量评估(含英文/中文各 1000 页)OCRFlux-pubtabnet-single:HTML 表格生成评估OCRFlux-bench-cross:跨页元素检测评估OCRFlux-pubtabnet-cross:跨页表格合并评估所有测试数据均未用于训练,确保评估公平性。
| 模型 | 英文 EDS | 中文 EDS | 平均 EDS |
|---|---|---|---|
| olmOCR-7B-0225-preview | 0.885 | 0.859 | 0.872 |
| Nanonets-OCR-s | 0.870 | 0.846 | 0.858 |
| MonkeyOCR | 0.828 | 0.731 | 0.780 |
| OCRFlux-3B(本项目) | 0.971 | 0.962 | 0.967 |
| 模型 | 简单表格 | 复杂表格 | 平均 TEDS |
|---|---|---|---|
| olmOCR-7B-0225-preview | 0.810 | 0.676 | 0.744 |
| Nanonets-OCR-s | 0.882 | 0.772 | 0.828 |
| MonkeyOCR | 0.880 | 0.826 | 0.853 |
| OCRFlux-3B(本项目) | 0.912 | 0.807 | 0.861 |
OCRFlux 特别适合以下应用场景:
我们还提供了多个实际案例研究,展示 OCRFlux 在真实世界文档中的强大解析能力,包括:
这些案例充分展示了 OCRFlux 在多种文档结构下的卓越适应性和稳定性。







