视觉编码器

共 3 篇文章

排序

发布更新浏览点赞

OpenVision 2：更高效、更对齐的生成式视觉编码器

OpenVision 2：更高效、更对齐的生成式视觉编码器

在多模态大模型（MLLM）快速发展的今天，一个核心问题日益凸显：预训练视觉编码器的训练方式是否真的适配下游任务？传统方法依赖图像-文本对比学习（如 CLIP），但这类模型在接入 LLM 进行微调时...

多模态模型 # OpenVision 2 # 视觉编码器

7个月前

01820

谷歌发布多语言视觉语言编码器SigLIP 2

谷歌发布多语言视觉语言编码器SigLIP 2

今天，谷歌正式发布了 SigLIP 2——一个全新的多语言视觉语言编码器系列。SigLIP 2 在语义理解、定位和密集特征方面进行了显著改进，进一步提升了视觉语言模型的性能。官方说明：https...

多模态模型 # PaliGemma 2 # SigLIP 2 # 视觉编码器

1年前

02580

视觉-语言适配器PaLM2-VAdapter：将传统的视觉编码器和大语言模型结合起来

视觉-语言适配器PaLM2-VAdapter：将传统的视觉编码器和大语言模型结合起来

PaLM2-VAdapter模型的主要目的是更有效地连接视觉编码器和大语言模型，以提高它们之间的协同工作效果。论文它能够有效地将传统的视觉编码器（vision encoders）和大语言模型（LL...

新技术 # PaLM2-VAdapter # 大语言模型 # 视觉编码器

2年前

08950