AI终于能“边看视频边记人”！北大等联合推出PEARL，实时互动不“失忆”

11 0

想象一下这个场景：你正在看一部长达两小时的电影直播，中途你指着屏幕对 AI 助手说：“记住那个穿红衣服的女孩，她叫小红。”

十分钟后，你问：“小红现在在干嘛？” AI 立刻回答：“她在厨房切菜。”

半小时后，你又问：“刚才小红进门时穿的是什么鞋子？” AI 迅速回溯画面：“她穿的是白色运动鞋。”

这听起来像是一个拥有完美记忆的人类朋友在陪你看片，但对现有的 AI 来说，这几乎是不可能完成的任务。目前的 AI 要么只能处理静态图片，要么必须把整个视频看完才能回答问题，更无法做到“边看边学、即时记忆”。

由北京大学、Adobe、CASIA、Stepfun、中山大学及中关村学院联合推出的 PEARL 框架，正式打破了这一僵局。它提出了全新的“个性化流式视频理解”（PSVU）任务，让 AI 首次具备了像人类一样实时识别新概念、持续记忆并精准回溯的能力。

传统的视频 AI 像是“考完试再阅卷”的学生——必须看完整个视频文件，才能开始分析问题。而 PEARL 则像是一个坐在你身边的“实时解说员”：

PEARL 之所以能实现这一壮举，且无需重新训练模型（即插即用），得益于其巧妙的三大核心设计：

PEARL 没有把所有信息混在一起，而是建立了两个独立的“档案库”：

概念记忆（Concept Memory）：专门存“名片”。当你说“这是小红”时，AI 提取她的核心特征（如“黑发、圆脸”），忽略易变细节（如衣服颜色），生成一张文字 + 图片的“名片”存起来。
流式记忆（Streaming Memory）：专门存“编年史”。视频被自动切割成一个个场景片段，压缩成数字指纹，按时间顺序存入档案柜。

优势：这种分离让检索极快。问“小红刚才在干嘛”时，AI 先查“名片库”确认小红长啥样，再去“编年史”里找匹配的画面，效率倍增。

AI 底层其实不懂“小红”这个名字，它只懂视觉特征。PEARL 拥有一个智能查询改写器：

这种机制确保了即使视频里出现了十个不同的人，AI 也能精准锁定你定义的“小红”，而不会张冠李戴。

PEARL 不是一个需要海量数据训练的庞大模型，而是一个轻量级框架。

研究团队构建了首个专用基准测试 PEARL-Bench（包含 132 个视频、2173 个精细标注问题），结果令人震惊：

超越离线模型：在传统离线模型上应用 PEARL，准确率从 32.7% 飙升至 52.2%，提升近 20 个百分点，甚至超越了谷歌最新的 Gemini 3 Pro。
领跑在线模型：相比其他流式视频模型，PEARL 领先幅度高达 17%。
通用性验证：无论底层换哪个模型，PEARL 都能带来显著增益（最高提升 23.5%）。
动作识别也精通：不仅能认人，还能学习自定义动作（如“旋转跳跃”），在该任务上准确率高达 48.4%，远超竞品。