Video-RTS：一种高效视频推理框架，用强化学习+动态推理策略打破数据依赖

156 0

北卡罗来纳大学教堂山分校的研究人员提出了一种全新的视频推理方法——Video-RTS（Reinforcement Learning with Test-time Scaling），旨在解决当前视频理解模型中普遍存在的高数据成本、训练复杂度高以及推理效率低等问题。

项目主页：https://sites.google.com/cs.unc.edu/videorts2025
GitHub：https://github.com/Ziyang412/Video-RTS

该方法结合了高效的强化学习训练机制与自适应测试时缩放策略，在显著降低训练样本需求的同时，提升了模型在多个视频推理任务上的表现。

为什么需要 Video-RTS？

当前主流的视频推理模型通常依赖于以下两种资源密集型操作：

大规模监督微调（SFT）：需要大量带有思维链（Chain-of-Thought, CoT）注释的视频数据。
长文本生成与复杂推理流程：模型必须处理冗长的中间推理过程，导致训练和推理成本居高不下。

而 Video-RTS 则跳过了这些繁琐步骤，采用一种“轻量训练 + 动态推理”的方式，在保证性能的前提下大幅提升效率。

核心功能一览

✅ 高效训练：仅需少量标注数据（如6K视频问答对），即可达到甚至超越传统方法（如使用169K样本的Video-R1）的性能。
✅ 动态稀疏到密集推理：根据输出一致性自动调整帧采样密度，实现更高效的计算资源分配。
✅ 降低计算开销：通过纯强化学习训练和测试时扩展策略，减少训练与推理阶段的整体资源消耗。

技术亮点解析

1. 纯强化学习训练（RL-only Training）

Video-RTS 使用 Group Relative Policy Optimization (GRPO) 算法进行训练，直接优化最终输出结果，而非依赖复杂的 CoT 注释。训练过程中利用两类奖励函数：

格式奖励（Rformat）：确保输出符合预期格式（如推理依据+答案）。
准确性奖励（Racc）：鼓励模型生成正确答案。

这种方式使得训练流程更加简洁，同时保持了高质量的推理能力。

2. 自适应测试时缩放（Adaptive Test-Time Scaling）

传统的视频推理模型往往采用固定帧采样策略，导致在简单问题上浪费计算资源，或在复杂问题上遗漏关键信息。

Video-RTS 提出了一种从稀疏到密集的动态推理机制：

初始阶段使用少量帧进行推理。
若输出不一致，则逐步增加帧数，直到结果稳定或达到最大帧数限制。
使用**多数投票机制（majority voting）**判断是否需要进一步细化推理。

这种策略不仅提高了推理准确率，也显著减少了不必要的计算开销。

实验评估结果

Video-RTS 在多个主流视频推理基准上进行了验证，均表现出色：

基准名称	相较于现有模型的提升
Video-Holmes	↑4.2% 准确率
MMVU	↑2.6% 准确率

此外：

数据效率方面：仅使用6K训练样本，表现优于使用169K样本的Video-R1。
推理效率方面：平均使用约42.8帧完成推理，远低于传统方法所需帧数。

工作流程简述

训练阶段：

使用 GRPO 强化学习算法进行训练。
输入为视频 + 问题 + 答案对。
输出由 Rformat 和 Racc 奖励函数共同优化。

推理阶段：

模型初始使用稀疏帧进行推理。
若输出不一致，逐步增加帧采样密度。
通过 majority voting 决定最终答案。

新技术 # Video-RTS # 视频推理框架

文章版权归作者所有，未经允许请勿转载。

深圳大学推出Attention Distillation：用于将参考图像的视觉特征（如风格、纹理、外观）转移到生成的图像中

新技术 # Attention Distillation # 参考图像 # 深圳大学

1年前

06010

基于多模态扩散模型的创新框架CreativeSynth：用于创意融合和合成视觉艺术

新技术 # CreativeSynth # 多模态扩散模型

2年前

05530

新型视频生成模型HPDM：通过分层处理和上下文融合技术，生成高分辨率视频

新技术 # HPDM # 分层补丁扩散模型 # 视频生成

2年前

07560

改进大语言模型的后训练方法，提升其在创意写作任务中的输出多样性和质量

新技术 # 创意写作 # 大语言模型

12个月前

02250

暂无评论

暂无评论...

Video-RTS：一种高效视频推理框架，用强化学习+动态推理策略打破数据依赖

为什么需要 Video-RTS？

核心功能一览

技术亮点解析

1. 纯强化学习训练（RL-only Training）

2. 自适应测试时缩放（Adaptive Test-Time Scaling）

实验评估结果

工作流程简述

训练阶段：

推理阶段：

通用图像超分辨率智能体4KAgent：将任意类型的低分辨率图像（包括自然图像、卫星图像、医学图像、AI生成内容等）提升至4K分辨率

AI2推出一种全新的语言模型协作训练范式FlexOlmo

相关文章

深圳大学推出Attention Distillation：用于将参考图像的视觉特征（如风格、纹理、外观）转移到生成的图像中

基于多模态扩散模型的创新框架CreativeSynth：用于创意融合和合成视觉艺术

新型视频生成模型HPDM：通过分层处理和上下文融合技术，生成高分辨率视频

改进大语言模型的后训练方法，提升其在创意写作任务中的输出多样性和质量

暂无评论

文章

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

深开鸿 KaihongOS 桌面版 5.0 正式开放免费试用：基于开源鸿蒙，首获公安部安全认证

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

谷歌搜索重磅升级：AI 画布（Canvas）全面开放，搜索框变身“项目工作台”

新腾讯开源SongGeneration 2：歌词准确率超越 Suno v5，首个真正达到“商业级”的开源音乐大模型

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

CoPaw

新AutoClaw

Video-RTS：一种高效视频推理框架，用强化学习+动态推理策略打破数据依赖

为什么需要 Video-RTS？

核心功能一览

技术亮点解析

1. 纯强化学习训练（RL-only Training）

2. 自适应测试时缩放（Adaptive Test-Time Scaling）

实验评估结果

工作流程简述

训练阶段：

推理阶段：

通用图像超分辨率智能体4KAgent：将任意类型的低分辨率图像（包括自然图像、卫星图像、医学图像、AI生成内容等）提升至4K分辨率

AI2推出一种全新的语言模型协作训练范式FlexOlmo

相关文章

文章

标签云

网址

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

CoPaw

新AutoClaw