腾讯开源 Penguin-VL:抛弃 CLIP,用大语言模型初始化视觉编码器,重塑多模态效率极限

“当所有人都在堆砌数据和参数时,腾讯选择了一条更本质的路:重新设计视觉编码器,让‘看’和‘想’在同一个空间里对话。”

在视觉语言模型(VLM)领域,主流范式长期依赖通过大规模对比学习(如 CLIP、SigLIP)预训练的视觉编码器。然而,腾讯最新开源的 Penguin-VL 系列模型对这一传统发起了挑战。

Penguin-VL 认为,对比学习倾向于学习粗粒度的类别不变性,难以满足 OCR(光学字符识别)文档理解密集字幕 及 复杂推理 所需的细粒度信号。为此,腾讯团队提出了一种颠覆性的架构:Penguin-Encoder——一个直接从纯文本大语言模型(LLM)初始化而来的视觉编码器。

  • GitHub:https://github.com/tencent-ailab/Penguin-VL
  • 模型:https://huggingface.co/collections/tencent/ai-lab
  • Demo:https://huggingface.co/spaces/tencent/Penguin-VL

这一创新不仅打破了模态壁垒,更在紧凑的模型规模下(2B/8B),实现了精度与效率的完美平衡。

腾讯开源 Penguin-VL:抛弃 CLIP,用大语言模型初始化视觉编码器,重塑多模态效率极限

核心突破:四大技术创新

1. LLM 初始化的视觉编码器 (Penguin-Encoder)

这是 Penguin-VL 的灵魂所在。

  • 传统做法:使用独立的 Vision Transformer (ViT),通过图像 - 文本对进行对比学习预训练。
  • Penguin 做法:直接复用纯文本 LLM(如 Qwen3-0.6B)的权重初始化视觉主干。
    • 注意力机制转换:将因果注意力(Causal Attention)转换为双向注意力(Bidirectional Attention),使其能全面捕捉图像上下文。
    • 2D-RoPE 嵌入:引入二维旋转位置编码,完美处理可变分辨率的视觉词元。
  • 优势:视觉主干在起始阶段就处于语言模型的表示空间内,大幅降低了模态对齐的难度,使学习更高效、更精细。

2. 混合监督编码器预训练

为了让 LLM 权重视觉化,团队设计了独特的“预热”策略:

  • 重建与蒸馏:利用振幅、方向、关系损失等重建目标,稳定地将视觉知识注入编码器。
  • 高分辨率对齐:预热完成后,切换至高分辨率对齐训练,确保模型能捕捉细微的视觉特征(如小字、复杂图表)。

3. 视频效率:时间冗余感知词元压缩

针对长视频理解中的计算瓶颈,Penguin-VL 引入了动态预算分配机制:

  • 关键帧优先:在全局词元预算固定的情况下,智能识别并分配更多词元给信息量大的关键帧。
  • 中间帧压缩:对变化较小的中间帧进行大幅压缩。
  • 效果:在不牺牲理解精度的前提下,显著提升了长视频处理的效率和上下文长度支持。

4. 统一训练策略

采用 “低分辨率 → 高分辨率” 的课程学习(Curriculum Learning)结合指令微调:

  • 先让模型学会“看大概”,再学会“看细节”。
  • 在同一套框架下平衡图像理解与视频分析能力,避免多任务冲突。

性能表现:小身材,大能量

Penguin-VL 系列发布了 2B 和 8B 两个版本。测试结果显示,它们在精度 - 效率权衡上表现卓越,尤其在以下领域显著优于同规模传统模型:

  • OCR 密集型任务:凭借细粒度视觉表征,能精准识别文档中的小字、公式和复杂排版。
  • 推理密集型任务:在需要多步逻辑推导的视觉问答中表现出色。
  • 长视频理解:动态词元压缩使其在处理长时序视频时更具优势。
腾讯开源 Penguin-VL:抛弃 CLIP,用大语言模型初始化视觉编码器,重塑多模态效率极限

模型库与资源

腾讯已完全开源了相关模型权重,社区可立即下载使用:

模型名称描述Hugging Face 链接
Penguin-VL-2B超轻量级多模态模型,适合端侧部署tencent/Penguin-VL-2B
Penguin-VL-8B平衡性能与效率的主力模型tencent/Penguin-VL-8B
Penguin Vision Encoder独立的视觉编码器权重,可集成到其他架构tencent/Penguin-Encoder

通过架构层面的创新——特别是打破视觉与语言模型的初始化壁垒,让两者在更底层的表示空间融合——我们完全可以在更小的参数量下,实现更精细、更高效的智能。这对于希望在本地设备、边缘计算场景中部署多模态能力的开发者和企业来说,无疑是一个巨大的利好。

© 版权声明

相关文章

暂无评论

none
暂无评论...