视觉语言模型

排序

发布更新浏览点赞

谷歌推出PaliGemma 2 Mix：在混合视觉语言任务上进行微调的视觉语言模型版本，涵盖 OCR、长短字幕等多种任务

去年 12 月5日，谷歌发布了 PaliGemma 2，这是一个基于 SigLIP 和 Gemma 2 的新型预训练视觉语言模型（VLM）系列。这些模型提供了三种不同的尺寸（3B、10B、28B）和三...

1年前

02420

阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL

阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL，对比此前发布的 Qwen2-VL 实现了巨大的飞跃。欢迎访问 Qwen Chat 并选择 Qwen2.5-VL-72B-I...

多模态模型 # Qwen2.5-VL # 视觉语言模型

1年前

02570

微信 AI 模式识别中心推出视觉语言模型POINTS1.5系列：提升对真实世界应用的处理能力

微信 AI 模式识别中心推出视觉语言模型POINTS1.5系列，旨在提升对真实世界应用的处理能力。POINTS1.5是POINTS1.0的增强版本，它通过引入几项关键创新，改进了模型在处理高分辨率图像...

多模态模型 # POINTS1.5 # 视觉语言模型

1年前

03640

开源视觉语言模型Moondream：将强大的图像理解能力与极小的资源占用完美结合

Moondream 是一款高效的开源视觉语言模型（VLM），它将强大的图像理解能力与极小的资源占用完美结合。这款模型设计初衷是为各种设备和平台提供多功能且易于访问的人工智能解决方案。官网：https...

多模态模型 # Moondream # 视觉语言模型

1年前

03370

谷歌推出开源视觉语言模型PaliGemma2：增加了强大的视觉能力，更容易微调

今年5月，谷歌推出了 PaliGemma，这是 Gemma 家族中的第一个视觉语言模型，旨在使一流的视觉AI更加普及。现在，谷歌自豪地推出 PaliGemma 2，这是一个可调视觉语言模型的最新进化版...

多模态模型 # PaliGemma2 # 视觉语言模型 # 谷歌

1年前

03130

跨模态图像生成模型Qwen2vl-Flux：将Qwen2VL的视觉语言理解能力与FLUX框架相结合，实现了更精确和上下文感知的图像生成

Qwen2vl-Flux 是一种先进的跨模态图像生成模型，它将Qwen2VL的视觉语言理解能力与FLUX框架相结合，实现了更精确和上下文感知的图像生成。该模型在文本提示和视觉参考的基础上生成高质量图像...

图像模型 # Qwen2vl-Flux # 视觉语言模型

1年前

03370

Nexa AI 推出迷你视觉语言模型 OmniVision-968M

Nexa AI 最新发布了 OmniVision-968M，这是一款专为边缘设备设计的视觉语言模型，它通过技术创新，将图像标记数量大幅减少，显著降低了延迟和计算负担，还提升了处理速度，为边缘计算领域带...

多模态模型 # Nexa AI # OmniVision-968M # 视觉语言模型

1年前

07520

JoyCaption：从零开始构建的免费、开放且未经审查的视觉语言模型

JoyCaption，一个从零开始构建的免费、开放且未经审查的视觉语言模型（VLM），旨在助力社区训练SD或Flux模型。它不仅免费开放，还提供训练脚本和丰富的构建细节，就像bigASP一样。 Dem...

多模态模型 # JoyCaption # 视觉语言模型

1年前

05460