新型检索增强生成（RAG）框架 ViDoRAG：专门用于处理视觉丰富文档中的复杂推理任务

333 0

中国科学技术大学、阿里通义实验室和上海交通大学的研究人员推出新型检索增强生成（RAG）框架 ViDoRAG，专门用于处理视觉丰富文档中的复杂推理任务。该框架通过动态迭代推理代理（agents）和多模态混合检索策略，显著提升了在大规模文档集合中检索和生成高质量答案的能力。

GitHub：https://github.com/Alibaba-NLP/ViDoRAG
数据集：https://huggingface.co/datasets/autumncc/ViDoSeek

视觉丰富文档（如幻灯片、报告等）包含图表、表格、布局等多种视觉元素，这些元素使得信息更易于理解，但也增加了检索和生成的复杂性。例如，用户可能需要从包含数百页的文档集合中检索特定信息，如“苹果公司 2024 年季度报告中最高和最低销售产品的利润差额是多少？”这种任务不仅需要准确检索相关页面，还需要模型具备复杂的推理能力。

主要功能

多模态混合检索：结合文本和视觉特征进行检索，动态调整检索结果分布，提高检索效率。
动态迭代推理：通过多个代理（Seeker、Inspector 和 Answer Agent）进行粗到细的推理，逐步提取线索、反思和生成答案。
复杂推理支持：支持单跳和多跳推理，能够处理涉及多个文档页面的复杂查询。
高效生成：通过动态调整检索结果数量，减少不必要的计算，提高生成效率。

主要特点

多模态混合检索策略：利用高斯混合模型（Gaussian Mixture Model, GMM）动态确定最优的检索结果数量，结合文本和视觉检索结果，优化检索分布。
多代理迭代推理框架：通过 Seeker、Inspector 和 Answer Agent 的协同工作，逐步细化检索结果并生成高质量答案。
动态检索长度调整：根据查询与文档集合的相似度分布动态调整检索结果数量，减少噪声和计算开销。
适应性强：适用于多种视觉丰富文档，支持不同类型的查询和推理任务。

工作原理

多模态混合检索：
- 文本和视觉检索：分别通过文本和视觉管道检索相关信息，利用 GMM 动态调整检索结果数量。
- 结果融合：将文本和视觉检索结果合并，优化检索分布，减少冗余信息。
多代理迭代推理：
- Seeker Agent：负责从粗略视角选择相关图像，提取全局线索。
- Inspector Agent：对选定图像进行详细审查，提供反馈或生成初步答案。
- Answer Agent：根据 Inspector 的反馈和初步答案，生成最终答案，确保一致性。

应用场景

教育领域：教师可以利用 ViDoRAG 从大量教学材料中快速检索和生成特定问题的答案，辅助教学准备。
金融领域：分析师可以快速从财务报告中提取关键数据，如利润、增长率等，用于市场分析。
法律领域：律师可以从法律文档中检索特定条款或案例，辅助案件准备。
科学研究：研究人员可以从科学文献中提取关键图表和数据，辅助研究分析。

总结

ViDoRAG 通过多模态混合检索和动态迭代推理代理，显著提升了在视觉丰富文档中的检索和生成能力。该框架在 ViDoSeek 基准测试中表现出色，超越了现有方法，为处理复杂视觉文档中的 RAG 任务提供了新的解决方案。未来工作将集中在进一步优化框架的效率，同时保持高准确率，并探索其在更多实际应用场景中的潜力。