FlowRVS：颠覆“定位 - 分割”旧范式，用“视频变形”魔法实现指代视频对象分割新 SOTA

53 0

想象这样一个场景：视频里有两只狗在玩耍，你对 AI 说：“帮我追踪那只正在跳的白色狗。”或者在一群人中，你指定：“锁定那个先骑自行车进画面的男人。”

这种用自然语言描述来指定视频中特定对象，并让 AI 持续追踪分割的任务，被称为指代视频对象分割（RVOS）。传统方法往往在处理复杂动作、时序关系或遮挡时“跟丢”目标。

近日，来自加州大学圣地亚哥分校、香港科技大学、浙江大学等机构的研究团队提出了一种名为 FlowRVS 的新方法。它摒弃了传统的级联架构，创造性地将 RVOS 任务重新定义为“视频向掩码流动”的生成式过程，在多个权威基准测试上刷新了最先进结果（SOTA）。

现有的 RVOS 方法普遍采用 “先定位（检测框/点），再分割” 的级联范式。这种看似合理的流程存在致命缺陷：

FlowRVS 的核心思想是一次范式转移：不再直接“猜”出分割结果，而是让视频像素在语言的引导下，逐渐“流动”并“凝结”成目标的分割掩码。

研究团队巧妙迁移了先进的**文本到视频生成模型（如 Wan 2.1）**的能力。

FlowRVS 将“语言理解”与“视频分割”融合为一个连续的、由文本调节的流场。

为了让这个“视频变形魔术师”精准工作，FlowRVS 引入了三项原理性技术：

边界偏置采样（重视第一步）
- 原理：研究发现，“流动”过程的第一步方向至关重要，如同射箭初期的瞄准。
- 策略：在训练时强化初始阶段的学习权重，确保模型能根据复杂语言描述做出准确的初始判断，防止“一步错，步步错”。
直接视频注入（永不忘记原视频）
- 原理：在 iterative 变形过程中，模型容易逐渐偏离原始目标。
- 策略：每一步都将原始视频特征直接注入当前状态。就像追踪时不断回头参考原片，防止因记忆模糊导致的身份混淆或漂移。
起点增强训练（鲁棒性提升）
- 原理：现实世界的视频起始帧千差万别。
- 策略：训练时对起点施加随机微小扰动，强迫模型学会在各种不利起始条件下都能稳定启动，提升泛化能力。

FlowRVS 在多个高难度基准测试中展现了统治力：

数据集	挑战点	FlowRVS 表现	对比优势
MeViS	复杂运动理解、长视频	J&F 51.1	超越前 SOTA (SAMWISE) 1.6 分
Ref-DAVIS17	零样本泛化	J&F 73.3	仅在 Ref-Youtube-VOS 训练，直接迁移超越前 SOTA 2.7 分
通用对比	架构效率	显著领先	比基于大视觉语言模型的 VISA 高出 7.0 分

零样本泛化：模型在一个数据集训练后，无需微调即可在全新场景（如从 YouTube 视频迁移到 DAVIS 数据集）保持高精度，证明其学到了通用的视频理解逻辑。
复杂语义理解：可视化结果显示，FlowRVS 能精准区分“两只打架牦牛中颜色较浅的那只”，并在严重遮挡下保持追踪连续性。