OpenVision 2

在多模态大模型（MLLM）快速发展的今天，一个核心问题日益凸显：预训练视觉编码器的训练方式是否真的适配下游任务？传统方法依赖图像-文本对比学习（如 CLIP），但这类模型在接入 LLM 进行微调时...

7个月前

01910