字节跳动发布Vidi2：攻克细粒度时空定位，视频检索性能领先GPT - 5

200 0

字节跳动智能创作团队推出的第二代多模态视频模型 Vidi2，凭借在时空定位、时间检索和视频问答三大核心能力上的突破，打破了传统视频模型在长视频理解和精细交互上的局限。该模型不仅在核心任务中实现对Gemini 3 Pro、GPT - 5等顶尖模型的超越，还通过两大自研基准数据集构建了视频多模态推理的全新评估体系，为下一代自动化、智能化视频创作系统奠定了坚实基础。

项目主页：https://bytedance.github.io/vidi-website
GitHub：https://github.com/bytedance/vidi
Demo：https://vidi.byteintl.com

核心功能：三大能力构建视频多模态理解闭环

Vidi2以文本与视频的深度交互为核心，实现了从内容检索、精准定位到智能问答的全流程覆盖，满足不同场景下的视频处理需求：

时空定位（STG）：这是Vidi2的核心亮点功能。面对“一个从跪姿起身的人”这类文本查询，模型不仅能精准锁定视频中对应的时间片段，还能通过边界框在每一帧画面中精准框选目标人物，有效区分目标与背景及其他对象。这种端到端的时空协同定位能力，为视频的精细化编辑提供了精准的操作依据。
时间检索（TR）：针对长视频内容杂乱、检索困难的痛点，Vidi2可依据文本查询快速抓取视频中的相关时间片段。其适配从10秒到30分钟的不同时长视频，即便面对复杂的多条件查询，也能高效筛选出匹配片段，大幅降低长视频内容筛选的时间成本。
视频问答（Video QA）：具备跨模态的问答推理能力，可对视频的视觉画面和听觉内容相关问题作出准确回应。无论是“视频中人物在第3分钟时手中拿的物品是什么”这类视觉问题，还是关于背景音效、人物对话相关的听觉问题，都能给出符合内容的答案，实现对视频内容的深度理解。

技术亮点：架构优化与数据集革新双轮驱动

1. 适配长视频的多模态架构

Vidi2在传承初代Vidi多模态架构的基础上进行了针对性升级。一方面，采用Gemma - 3等先进语言模型作为骨干，强化文本与视频内容的语义对齐能力；另一方面，创新设计自适应令牌压缩策略，巧妙平衡了短视频的快速处理和长视频的高效表示，解决了长视频处理中数据冗余、推理缓慢的行业难题，让30分钟级长视频的细粒度分析成为可能。

2. 高质量数据支撑模型精准学习

为提升核心能力的可靠性，Vidi2采用“合成数据+真实标注数据”的混合训练方式。通过大规模合成时空视频定位对，让模型初步掌握时空关联规律；再结合高精度人工标注的真实视频数据优化模型参数，使其在真实场景中的定位和检索精度大幅提升。

3. 两大基准数据集补全评估短板

针对现有数据集在长视频、细粒度评估上的不足，Vidi2推出两款自研基准数据集，推动行业评估标准升级：

数据集	核心改进点	价值作用
VUE - STG	视频时长覆盖10秒 - 30分钟；查询以名词短语为主，兼顾句子表达；时间范围与边界框均人工高精度标注；采用vIoU/tIoU/vIoU - Intersection多片段评估指标	填补长视频时空定位评估空白，为模型细粒度时空能力提供科学测评依据
VUE - TR - V2	优化视频时长分布，使其更均衡；优化查询方式，贴合用户实际使用习惯	解决传统时间检索评估场景与真实用户需求脱节的问题，提升评估结果的实用参考性

性能表现：核心任务实现行业领先，问答能力具备竞争力

Vidi2在不同基准测试中表现分化显著，核心的时空定位与时间检索任务优势突出，视频问答能力处于开源模型第一梯队：

时空定位：在自研VUE - STG数据集上，Vidi2的时空IoU（vIoU）达到32.57%，在时间和时空两大维度的各项指标中，均大幅超越Gemini 3 Pro（预览版）、GPT - 5和Qwen3 - VL等主流模型，展现出无可比拟的细粒度定位实力。
时间检索：在VUE - TR - V2数据集上，其整体IoU高达48.75%，尤其在中等长度到超长视频的检索任务中，显著领先于Gemini 3 Pro（预览版）和GPT - 5，成为长视频检索领域的标杆模型。
视频问答：在LVBench、LongVideoBench和VideoMME等公共基准测试中，Vidi2的表现与Qwen2.5 - VL - 7B等规模相近的热门开源模型不相上下，虽相较于Gemini - 2.5 - Pro仍有差距，但在开源生态中已具备较强的实用价值。

应用场景：贯穿视频创作全流程，赋能多领域需求

Vidi2的技术能力可深度融入视频生产、编辑、传播等各个环节，适配多种行业场景：

短视频高效创作：对直播回放、影视剧集等长视频，模型能自动提取高光片段，还可生成适配的标题和简介，帮助创作者快速产出符合平台传播需求的短视频内容，大幅缩短创作周期。
专业视频精细编辑：在影视剪辑、广告制作等领域，可基于剧情相关查询完成角色定位、场景截取，支持自动多视角切换和构图优化，减少人工逐帧筛选和调整的工作量，提升专业编辑的工作效率。
智能视频内容管理：对于媒体机构、企业的海量视频素材库，Vidi2可通过文本查询快速定位目标片段，同时借助问答功能提取视频关键信息，实现视频素材的智能化分类、检索与摘要生成，降低素材管理成本。
故事线驱动创作：接收多个零散视频素材后，模型能生成包含旁白撰写、音乐搭配、动画添加和过渡效果设计的完整创作指令，助力实现自动化的视频整合创作，适配自媒体、教育等领域的批量内容生产需求。