腾讯开源 Penguin-VL:抛弃 CLIP,用大语言模型初始化视觉编码器,重塑多模态效率极限“当所有人都在堆砌数据和参数时,腾讯选择了一条更本质的路:重新设计视觉编码器,让‘看’和‘想’在同一个空间里对话。” 在视觉语言模型(VLM)领域,主流范式长期依赖通过大规模对比学习(如 CLIP、S...多模态模型# Penguin-VL# Penguin-VL-2B# Penguin-VL-8B3天前0130