OpenVision 2:更高效、更对齐的生成式视觉编码器在多模态大模型(MLLM)快速发展的今天,一个核心问题日益凸显:预训练视觉编码器的训练方式是否真的适配下游任务? 传统方法依赖图像-文本对比学习(如 CLIP),但这类模型在接入 LLM 进行微调时...多模态模型# OpenVision 2# 视觉编码器3个月前01240