FlowRVS:颠覆“定位 - 分割”旧范式,用“视频变形”魔法实现指代视频对象分割新 SOTA

视频模型12小时前发布 小马良
5 0

想象这样一个场景:视频里有两只狗在玩耍,你对 AI 说:“帮我追踪那只正在跳的白色狗。”或者在一群人中,你指定:“锁定那个先骑自行车进画面的男人。”

这种用自然语言描述来指定视频中特定对象,并让 AI 持续追踪分割的任务,被称为指代视频对象分割(RVOS)。传统方法往往在处理复杂动作、时序关系或遮挡时“跟丢”目标。

  • GitHub:https://github.com/xmz111/FlowRVS
  • 模型:https://huggingface.co/xmz111/FlowRVS

近日,来自加州大学圣地亚哥分校、香港科技大学、浙江大学等机构的研究团队提出了一种名为 FlowRVS 的新方法。它摒弃了传统的级联架构,创造性地将 RVOS 任务重新定义为“视频向掩码流动”的生成式过程,在多个权威基准测试上刷新了最先进结果(SOTA)。

FlowRVS:颠覆“定位 - 分割”旧范式,用“视频变形”魔法实现指代视频对象分割新 SOTA

痛点:传统“两步走”为何失效?

现有的 RVOS 方法普遍采用 “先定位(检测框/点),再分割” 的级联范式。这种看似合理的流程存在致命缺陷:

  1. 信息瓶颈:第一步将丰富的语言描述(如“正在转圈的白色兔子”)压缩成简单的几何坐标(一个框),丢弃了动作、颜色、相对位置等关键语义信息。
  2. 时序断裂:分割阶段往往与最初的语言理解脱节。一旦目标被遮挡或发生剧烈形变,模型容易因缺乏语义引导而“跟丢”。
  3. 复杂语境无力:面对涉及时序(“先出现的那只”)、比较(“较轻的那头”)或复杂动作的描述,传统判别式模型常常束手无策。
FlowRVS:颠覆“定位 - 分割”旧范式,用“视频变形”魔法实现指代视频对象分割新 SOTA

核心突破:从“判别预测”到“生成式变形”

FlowRVS 的核心思想是一次范式转移:不再直接“猜”出分割结果,而是让视频像素在语言的引导下,逐渐“流动”并“凝结”成目标的分割掩码。

1. 借鉴视频生成模型的强大能力

研究团队巧妙迁移了先进的**文本到视频生成模型(如 Wan 2.1)**的能力。

  • 原生优势:这些模型天生理解文字与像素的对应关系,深知物体在时间维度上的运动规律。
  • 逆向运用:FlowRVS 反其道而行之,不是从文字生成新视频,而是让现有视频流向文字描述的目标形态

2. 端到端统一架构

FlowRVS 将“语言理解”与“视频分割”融合为一个连续的、由文本调节的流场。

  • 无中间损耗:语言指令全程参与每一个变形步骤,避免了信息在模块间传递时的丢失。
  • 单阶段简洁:摒弃了复杂的检测头、分割头级联,用一个统一模型完成所有任务,减少了错误累积。

关键技术:如何确保“变形”不跑偏?

为了让这个“视频变形魔术师”精准工作,FlowRVS 引入了三项原理性技术:

  • 边界偏置采样(重视第一步)
    • 原理:研究发现,“流动”过程的第一步方向至关重要,如同射箭初期的瞄准。
    • 策略:在训练时强化初始阶段的学习权重,确保模型能根据复杂语言描述做出准确的初始判断,防止“一步错,步步错”。
  • 直接视频注入(永不忘记原视频)
    • 原理:在 iterative 变形过程中,模型容易逐渐偏离原始目标。
    • 策略:每一步都将原始视频特征直接注入当前状态。就像追踪时不断回头参考原片,防止因记忆模糊导致的身份混淆或漂移。
  • 起点增强训练(鲁棒性提升)
    • 原理:现实世界的视频起始帧千差万别。
    • 策略:训练时对起点施加随机微小扰动,强迫模型学会在各种不利起始条件下都能稳定启动,提升泛化能力。

实测表现:刷新纪录,泛化强劲

FlowRVS 在多个高难度基准测试中展现了统治力:

数据集挑战点FlowRVS 表现对比优势
MeViS复杂运动理解、长视频J&F 51.1超越前 SOTA (SAMWISE) 1.6 分
Ref-DAVIS17零样本泛化J&F 73.3仅在 Ref-Youtube-VOS 训练,直接迁移超越前 SOTA 2.7 分
通用对比架构效率显著领先比基于大视觉语言模型的 VISA 高出 7.0 分
  • 零样本泛化:模型在一个数据集训练后,无需微调即可在全新场景(如从 YouTube 视频迁移到 DAVIS 数据集)保持高精度,证明其学到了通用的视频理解逻辑
  • 复杂语义理解:可视化结果显示,FlowRVS 能精准区分“两只打架牦牛中颜色较浅的那只”,并在严重遮挡下保持追踪连续性。

意义与展望

FlowRVS 的成功证明了生成式模型在理解任务中的巨大潜力。它打破了“生成”与“理解”的界限,展示了预训练视频大模型如何通过巧妙的范式转换,赋能下游密集预测任务。

  • 技术启示:端到端的“流动”范式可能成为未来视频理解的新标准,替代繁琐的级联 Pipeline。
  • 应用前景:从智能监控(“追踪那个穿红衣服逃跑的人”)到自动驾驶(“关注那辆正在变道的蓝色卡车”),再到视频编辑,FlowRVS 让 AI 真正听懂人话、看懂动态世界。
© 版权声明

相关文章

暂无评论

none
暂无评论...