基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC:快速分析视频内容,并同步生成自然流畅的语音或文字解说

多模态模型8个月前发布 小马良
301 0

新加坡国立大学和字节跳动的研究人员推出基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC,能够像专业解说员一样快速分析视频内容,并同步生成自然流畅的语音或文字解说。特别适合需要即时反馈的场景,比如体育赛事直播时自动生成战术分析,或是游戏直播中实时解说。

LiveCC通过大规模的流式语音转录(Streaming Speech Transcription)数据进行训练,能够实时生成视频解说(commentary)和回答视频相关问题。该模型的核心在于利用自动语音识别(ASR)生成的字幕作为训练数据,通过一种新颖的流式训练方法,将视频帧与对应的 ASR 单词紧密对齐,从而实现细粒度的视听语言建模。

主要功能

  1. 实时视频解说:LiveCC 能够在视频播放的同时,逐帧生成与视频内容紧密相关的解说词,适用于体育赛事、新闻报道、教学视频等多种场景。
  2. 视频问答:模型可以回答与视频内容相关的问题,支持多种类型的问答任务,如物体识别、动作理解、事件推理等。
  3. 低延迟处理:LiveCC 在处理视频流时,每帧的延迟小于0.5秒,能够支持实时应用场景,如增强现实(AR)眼镜、实时直播等。

主要特点

  1. 大规模数据驱动:LiveCC 使用了大规模的 YouTube 视频及其自动生成的字幕(ASR)作为训练数据,通过构建 Live-CC-5M 和 Live-WhisperX-526K 数据集,实现了低成本、高效率的模型训练。
  2. 细粒度视听对齐:模型采用了流式训练方法,将 ASR 单词与视频帧按照时间戳密集交错排列,使得模型能够学习到视频帧与语音之间的细粒度时间对齐关系。
  3. 实时性与低延迟:LiveCC 在推理时逐帧生成文本,仅需处理少量单词,确保了极低的延迟,适合实时视频处理。
  4. 强大的泛化能力:通过在多个视频问答基准测试(如 VideoMME、OVOBench)上验证,LiveCC 展示了其在不同任务上的广泛适用性。

工作原理

  1. 数据收集与处理

    • Live-CC-5M 数据集:从 YouTube 视频中提取原始字幕(CC),经过过滤和剪辑,生成大规模的预训练数据集。
    • Live-WhisperX-526K 数据集:使用高质量的 ASR 转录工具 WhisperX 生成更准确的字幕,并结合人工标注的提示(prompt)用于指令微调(SFT)。
  2. 模型架构

    • 基于 Qwen2-VL 模型,结合视觉编码器(Vision Transformer)和语言模型(LLM)。
    • 在训练时,将视频帧和对应的 ASR 单词按照时间顺序交错排列,形成密集的输入序列,模型通过自回归预测文本标记。
  3. 训练与推理

    • 预训练:模型在 Live-CC-5M 数据集上进行预训练,学习视频帧与 ASR 单词之间的对齐关系。
    • 指令微调(SFT):在 Live-WhisperX-526K 数据集上进行微调,进一步提升模型在特定任务上的性能。
    • 推理:在推理时,模型逐帧处理视频输入,生成与视频内容相关的文本输出,支持实时交互。
© 版权声明

相关文章

暂无评论

none
暂无评论...