VideoRAG：用知识图谱和多模态检索让大模型理解多小时视频

多模态模型3个月前发布小马良

45 0

当前的大语言模型（LLMs）在处理短视频时已表现出强大能力，但面对数小时甚至跨集的长视频（如讲座系列、纪录片、剧集），它们往往力不从心——上下文窗口有限、计算成本高、跨场景语义断裂。

GitHub：https://github.com/HKUDS/VideoRAG

由香港大学与百度联合提出的新框架 VideoRAG，为这一难题提供了可扩展的解决方案。它不依赖重新训练模型，而是通过图结构知识组织 + 多模态检索增强，让任何现有 LLM 都能高效“读懂”超长视频。

为什么传统方法在长视频上失效？

现有的大型视频语言模型（LVLMs），如 VideoLLaMA、LLaVA-Video，通常：

逐帧或分段处理视频，无法跨越数小时建立语义连贯性；
受限于上下文长度（如 32K tokens），面对 10 小时视频只能“管中窥豹”；
纯文本 RAG（检索增强生成）忽略视觉与音频信号，丢失关键上下文。

结果：模型能回答“这一帧有什么”，却无法回答“主角在整部纪录片中如何转变立场”。

VideoRAG 的核心思想：不处理每一帧，只检索关键片段

VideoRAG 是首个专为超长上下文视频设计的 RAG 框架。它不做全视频编码，而是构建一个混合索引系统，通过两步实现高效理解：

1. 基于图的文本知识定位（Graph-Based Text Knowledge Grounding）

从视频字幕、语音转录中提取实体（如人名、地点、概念）；
构建知识图谱，节点为实体，边为关系（如“X 讨论了 Y”“Z 出现在第3集”）；
该图谱天然支持跨视频、跨时段的语义关联，例如将“强化学习”与“OpenAI 第5天讲座”自动链接。

相比线性文本索引，图结构能捕捉“谁在何时说了什么”这一深层逻辑。

2. 多模态上下文编码（Multimodal Context Encoding）

使用多模态编码器（如 CLIP 或 Video-LLM）为关键视频片段生成嵌入；
这些嵌入融合了视觉、语音、文本三重信号；
查询与片段在统一向量空间中对齐，实现“语义检索”而非“关键词匹配”。

例如，用户问：“评分者在强化微调中起什么作用？”

VideoRAG 能从 OpenAI 12 天讲座系列（总时长超 60 小时）中，精准定位相关片段并合成答案。

免训练、即插即用

VideoRAG 无需微调任何模型，其架构包含：

检索层：图谱 + 多模态索引；
过滤与生成层：轻量级 LLM 模块，负责查询重写、片段筛选与答案合成。

这意味着：

可与 GPT-4、Claude、Llama 3 等任意 LLM 集成；
部署成本低，适合实际应用；
模型能力随 LLM 进化而自动提升。

实验验证：在 134 小时视频上超越现有方法

研究团队构建了 LongerVideos 基准数据集：

包含 160+ 视频，总时长 134 小时；
涵盖教育讲座、纪录片、娱乐节目三大类；
评估维度：全面性、深度、可信度、信息密度等。

结果表明，VideoRAG 在所有指标上显著优于现有视频 RAG 与 LVLM 方法。用户研究也显示，其生成的答案在语义连贯性与事实准确性上更受认可。

潜在应用场景

教育分析：从数十小时课程视频中提取知识脉络，辅助学习或教学；
媒体档案检索：快速定位纪录片中某观点的完整论述；
内容创作辅助：为编剧或记者提供跨集事件的时间线与角色关系；
企业知识管理：将内部培训视频转化为可搜索的知识库。

文章版权归作者所有，未经允许请勿转载。

上海AI实验室发布 Intern-S1-Pro：万亿参数 MoE 多模态科学推理模型

多模态模型 # Intern-S1-Pro # 上海AI实验室 # 书生科学多模态大模型

1个月前

0210

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

多模态模型 # UI-TARS # 字节跳动

11个月前

03740

阿里开源 Qwen3-VL 多模态检索模型：Embedding + Reranker 两阶段提升跨模态精度

多模态模型 # Qwen3-VL-Embedding # Qwen3-VL-Reranker

2个月前

0430

OpenVision 2：更高效、更对齐的生成式视觉编码器

多模态模型 # OpenVision 2 # 视觉编码器

7个月前

01820

暂无评论

暂无评论...

VideoRAG：用知识图谱和多模态检索让大模型理解多小时视频

为什么传统方法在长视频上失效？

VideoRAG 的核心思想：不处理每一帧，只检索关键片段

1. 基于图的文本知识定位（Graph-Based Text Knowledge Grounding）

2. 多模态上下文编码（Multimodal Context Encoding）

免训练、即插即用

实验验证：在 134 小时视频上超越现有方法

潜在应用场景

Google DeepMind发布T5Gemma 2：支持多模态与 128K 上下文的高效编码器-解码器模型

阿里通义开源 MAI-UI：32B 模型 GUI 定位超 Gemini-3-Pro，端云协同重构智能体交互

相关文章

上海AI实验室发布 Intern-S1-Pro：万亿参数 MoE 多模态科学推理模型

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

阿里开源 Qwen3-VL 多模态检索模型：Embedding + Reranker 两阶段提升跨模态精度

OpenVision 2：更高效、更对齐的生成式视觉编码器

暂无评论

文章

DiT架构的文生视频模型xGen-VideoSyn-1：根据文本描述生成逼真的视频场景

用“Megakernel”打破LLM推理瓶颈：斯坦福Hazy Research实现Llama-1B史上最低延迟

Vivaldi CEO 强硬表态：坚决禁止浏览器集成生成式 AI，网页该由人类主导

针对姿势引导的人像图像动画技术TCAN：让图片中的人物根据某个动作序列（比如一个视频）来做出相应的动作

自适应投影引导APG：不牺牲图像质量的前提下，使用更高的指导尺度，从而生成更丰富、更真实的图像

Trae Agent 2.0大升级：能记住、会推理、更懂代码的AI来了

新悟空

Meshy

S.H.I.T

OpenMAIC

CutCut

ArkClaw

VideoRAG：用知识图谱和多模态检索让大模型理解多小时视频

为什么传统方法在长视频上失效？

VideoRAG 的核心思想：不处理每一帧，只检索关键片段

1. 基于图的文本知识定位（Graph-Based Text Knowledge Grounding）

2. 多模态上下文编码（Multimodal Context Encoding）

免训练、即插即用

实验验证：在 134 小时视频上超越现有方法

潜在应用场景

Google DeepMind发布T5Gemma 2：支持多模态与 128K 上下文的高效编码器-解码器模型

阿里通义开源 MAI-UI：32B 模型 GUI 定位超 Gemini-3-Pro，端云协同重构智能体交互

相关文章

文章

标签云

网址

新悟空

Meshy

S.H.I.T

OpenMAIC

CutCut

ArkClaw