快手 Keye 团队发布Keye-VL-1.5 ：支持 128K 上下文的视频理解大模型

多模态模型7个月前发布小马良

75 0

在多模态大模型的竞争中，视频理解正成为下一个关键战场。相比图像，视频包含更丰富的时空信息——动作的起止、事件的因果、场景的演变。要让AI真正“看懂”一段视频，不仅需要识别画面内容，还要理解时间逻辑与行为动机。

GitHub：https://github.com/Kwai-Keye/Keye
模型：https://huggingface.co/Kwai-Keye/Keye-VL-1_5-8B

近日，快手 Keye 团队发布了其最新版本多模态大语言模型 Keye-VL-1.5。相比前代，它在视频理解、长上下文处理和复杂推理能力上实现显著提升，标志着国产多模态模型在视频场景中的进一步突破。

快手 Keye 团队发布 Kwai Keye-VL ：专注短视频理解的多模态大模型

快手 Keye 团队发布Keye-VL-1.5 ：支持 128K 上下文的视频理解大模型

为什么视频理解如此困难？

传统视觉模型多以图像为输入，而视频带来了三大挑战：

信息量大：一分钟视频可能等效于上百张图像
时序依赖强：动作的发生顺序决定语义（例如“拿起杯子”和“倒水”必须按序理解）
关键帧稀疏：重要内容往往集中在少数帧中，其余为冗余静态画面

Keye-VL-1.5 的设计，正是围绕这些挑战展开。

核心升级：从编码策略到训练方法的系统性优化

1. Slow-Fast 视频编码：动态分配计算资源

Keye-VL-1.5 引入 Slow-Fast 编码策略，灵感来源于经典视频理解架构，但针对大模型场景做了适配。

Slow 路径：处理关键帧，使用高分辨率捕捉空间细节（如人物表情、物体形态）
Fast 路径：处理静态或变化较小的帧，降低分辨率与采样率，节省计算开销

通过分析帧间相似性动态调整路径分配，模型在保证精度的同时，显著提升处理长视频的效率。

2. 四阶段渐进式预训练：支持 128K 上下文长度

长上下文是理解复杂视频的基础。Keye-VL-1.5 采用四阶段渐进预训练策略，逐步扩展上下文长度：

8K tokens
32K tokens
64K tokens
最终达到 128K tokens

这种分阶段训练方式，使模型能稳定学习长距离依赖关系，适用于长时间对话、连续剧情理解等任务。

3. LongCoT Cold-Start 数据管道 + 强化学习优化推理

为了提升模型的逻辑推理能力，团队构建了 LongCoT（Long Chain-of-Thought）Cold-Start 数据管道，生成包含多步推理的高质量训练样本。

在此基础上，引入迭代式强化学习（RL）训练策略：

通过提示引导模型生成推理链
利用奖励模型评估输出质量
结合人类偏好数据进行对齐优化

这一组合显著提升了模型在视觉问答、行为归因等任务中的响应质量与逻辑严谨性。

4. 超大规模多模态训练数据

模型在超过 1 万亿 tokens 的多样化数据集上训练，涵盖：

图像-文本对
视频-字幕序列
用户行为日志
人工标注指令数据

丰富的数据来源保障了模型在真实场景下的泛化能力。

能做什么？三大核心能力

能力	典型应用
✅ 视频内容理解	自动识别物体出现时间、动作发生顺序、行为动机分析
✅ 视觉问答（VQA）	回答“为什么这个人突然跑起来？”“这个操作有什么风险？”等因果类问题
✅ 长视频摘要生成	基于 128K 上下文，生成连贯、有逻辑的视频描述或章节摘要

此外，Keye-VL-1.5 也支持通用多模态任务，如图像描述、图文检索、跨模态生成等，具备较强的通用性。

实测表现：全面领先

在多个公开基准和内部测试中，Keye-VL-1.5 表现优异：

在视频理解任务中，平均性能显著优于现有主流模型
在需要时间推理的任务上（如事件排序、因果推断），准确率提升明显
多模态任务综合能力与国际先进模型相当，部分指标领先

尤其在长视频结构化理解和复杂场景推理方面，展现出更强的鲁棒性与连贯性。

技术意义与未来展望

Keye-VL-1.5 的发布，不仅是参数或指标的提升，更体现了对“视频作为时序媒介”这一本质的深入理解。

它的几个关键设计——Slow-Fast 编码、渐进式长上下文训练、LongCoT 数据构建——为后续多模态模型提供了可复用的技术路径。

对于内容平台而言，这类模型可用于：

自动生成视频字幕与章节标签
提升推荐系统的语义理解能力
支持创作者进行智能剪辑与内容分析

而对于通用 AI 系统，它意味着机器正逐步具备“看懂故事”的能力。

多模态模型 # Keye-VL-1.5 # 快手 # 视频理解大模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

壁智能推出MiniCPM-o 2.6：手机上的 GPT-4o 级多模态大模型，可实时语音通话和视频通话

壁智能推出MiniCPM-o 2.6：手机上的 GPT-4o 级多模态大模型，可实时语音通话和视频通话

多模态模型 # MiniCPM-o 2.6 # 壁智能 # 视频通话

1年前

03300

新型多模态扩散基础模型MMaDA：通过统一的扩散架构和训练策略，在多种领域（如文本推理、多模态理解和文本到图像生成）中实现卓越性能

新型多模态扩散基础模型MMaDA：通过统一的扩散架构和训练策略，在多种领域（如文本推理、多模态理解和文本到图像生成）中实现卓越性能

多模态模型 # MMaDA # 多模态扩散基础模型

10个月前

05010

阿里巴巴推出 SmartResume：一个能“读懂”复杂简历版式的智能解析系统

阿里巴巴推出 SmartResume：一个能“读懂”复杂简历版式的智能解析系统

多模态模型 # SmartResume # 智能简历解析 # 阿里巴巴

4个月前

02030

多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed：经过指令调整的Qwen2-VL-7B-Instruct版本

多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed：经过指令调整的Qwen2-VL-7B-Instruct版本

多模态模型 # Qwen2-VL-7B-Captioner-Relaxed # 多模态大语言模型

1年前

05870

暂无评论

none

暂无评论...