字节跳动智能创作团队推出的第二代多模态视频模型Vidi2,凭借在时空定位、时间检索和视频问答三大核心能力上的突破,打破了传统视频模型在长视频理解和精细交互上的局限。该模型不仅在核心任务中实现对Gemini 3 Pro、GPT - 5等顶尖模型的超越,还通过两大自研基准数据集构建了视频多模态推理的全新评估体系,为下一代自动化、智能化视频创作系统奠定了坚实基础。
- 项目主页:https://bytedance.github.io/vidi-website
- GitHub:https://github.com/bytedance/vidi
- Demo:https://vidi.byteintl.com

核心功能:三大能力构建视频多模态理解闭环
Vidi2以文本与视频的深度交互为核心,实现了从内容检索、精准定位到智能问答的全流程覆盖,满足不同场景下的视频处理需求:
- 时空定位(STG):这是Vidi2的核心亮点功能。面对“一个从跪姿起身的人”这类文本查询,模型不仅能精准锁定视频中对应的时间片段,还能通过边界框在每一帧画面中精准框选目标人物,有效区分目标与背景及其他对象。这种端到端的时空协同定位能力,为视频的精细化编辑提供了精准的操作依据。
- 时间检索(TR):针对长视频内容杂乱、检索困难的痛点,Vidi2可依据文本查询快速抓取视频中的相关时间片段。其适配从10秒到30分钟的不同时长视频,即便面对复杂的多条件查询,也能高效筛选出匹配片段,大幅降低长视频内容筛选的时间成本。
- 视频问答(Video QA):具备跨模态的问答推理能力,可对视频的视觉画面和听觉内容相关问题作出准确回应。无论是“视频中人物在第3分钟时手中拿的物品是什么”这类视觉问题,还是关于背景音效、人物对话相关的听觉问题,都能给出符合内容的答案,实现对视频内容的深度理解。
技术亮点:架构优化与数据集革新双轮驱动
1. 适配长视频的多模态架构
Vidi2在传承初代Vidi多模态架构的基础上进行了针对性升级。一方面,采用Gemma - 3等先进语言模型作为骨干,强化文本与视频内容的语义对齐能力;另一方面,创新设计自适应令牌压缩策略,巧妙平衡了短视频的快速处理和长视频的高效表示,解决了长视频处理中数据冗余、推理缓慢的行业难题,让30分钟级长视频的细粒度分析成为可能。
2. 高质量数据支撑模型精准学习
为提升核心能力的可靠性,Vidi2采用“合成数据+真实标注数据”的混合训练方式。通过大规模合成时空视频定位对,让模型初步掌握时空关联规律;再结合高精度人工标注的真实视频数据优化模型参数,使其在真实场景中的定位和检索精度大幅提升。
3. 两大基准数据集补全评估短板
针对现有数据集在长视频、细粒度评估上的不足,Vidi2推出两款自研基准数据集,推动行业评估标准升级:
| 数据集 | 核心改进点 | 价值作用 |
|---|---|---|
| VUE - STG | 视频时长覆盖10秒 - 30分钟;查询以名词短语为主,兼顾句子表达;时间范围与边界框均人工高精度标注;采用vIoU/tIoU/vIoU - Intersection多片段评估指标 | 填补长视频时空定位评估空白,为模型细粒度时空能力提供科学测评依据 |
| VUE - TR - V2 | 优化视频时长分布,使其更均衡;优化查询方式,贴合用户实际使用习惯 | 解决传统时间检索评估场景与真实用户需求脱节的问题,提升评估结果的实用参考性 |

性能表现:核心任务实现行业领先,问答能力具备竞争力
Vidi2在不同基准测试中表现分化显著,核心的时空定位与时间检索任务优势突出,视频问答能力处于开源模型第一梯队:
- 时空定位:在自研VUE - STG数据集上,Vidi2的时空IoU(vIoU)达到32.57%,在时间和时空两大维度的各项指标中,均大幅超越Gemini 3 Pro(预览版)、GPT - 5和Qwen3 - VL等主流模型,展现出无可比拟的细粒度定位实力。
- 时间检索:在VUE - TR - V2数据集上,其整体IoU高达48.75%,尤其在中等长度到超长视频的检索任务中,显著领先于Gemini 3 Pro(预览版)和GPT - 5,成为长视频检索领域的标杆模型。
- 视频问答:在LVBench、LongVideoBench和VideoMME等公共基准测试中,Vidi2的表现与Qwen2.5 - VL - 7B等规模相近的热门开源模型不相上下,虽相较于Gemini - 2.5 - Pro仍有差距,但在开源生态中已具备较强的实用价值。
应用场景:贯穿视频创作全流程,赋能多领域需求
Vidi2的技术能力可深度融入视频生产、编辑、传播等各个环节,适配多种行业场景:
- 短视频高效创作:对直播回放、影视剧集等长视频,模型能自动提取高光片段,还可生成适配的标题和简介,帮助创作者快速产出符合平台传播需求的短视频内容,大幅缩短创作周期。
- 专业视频精细编辑:在影视剪辑、广告制作等领域,可基于剧情相关查询完成角色定位、场景截取,支持自动多视角切换和构图优化,减少人工逐帧筛选和调整的工作量,提升专业编辑的工作效率。
- 智能视频内容管理:对于媒体机构、企业的海量视频素材库,Vidi2可通过文本查询快速定位目标片段,同时借助问答功能提取视频关键信息,实现视频素材的智能化分类、检索与摘要生成,降低素材管理成本。
- 故事线驱动创作:接收多个零散视频素材后,模型能生成包含旁白撰写、音乐搭配、动画添加和过渡效果设计的完整创作指令,助力实现自动化的视频整合创作,适配自媒体、教育等领域的批量内容生产需求。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















