谷歌发布多语言视觉语言编码器SigLIP 2 今天,谷歌正式发布了 SigLIP 2——一个全新的多语言视觉语言编码器系列。SigLIP 2 在语义理解、定位和密集特征方面进行了显著改进,进一步提升了视觉语言模型的性能。 官方说明:https:/... 多模态模型# PaliGemma 2# SigLIP 2# 视觉编码器 17小时前010
阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL 阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL,对比此前发布的 Qwen2-VL 实现了巨大的飞跃。欢迎访问 Qwen Chat 并选择 Qwen2.5-VL-72B-I... 多模态模型# Qwen2.5-VL# 视觉语言模型 2天前0820
谷歌推出PaliGemma 2 Mix:在混合视觉语言任务上进行微调的视觉语言模型版本,涵盖 OCR、长短字幕等多种任务 去年 12 月5日,谷歌发布了 PaliGemma 2,这是一个基于 SigLIP 和 Gemma 2 的新型预训练视觉语言模型(VLM)系列。这些模型提供了三种不同的尺寸(3B、10B、28B)和三... 多模态模型# PaliGemma 2 Mix# 视觉语言模型# 谷歌 3天前090
让大语言模型“看懂”图形界面!微软推出 OmniParser V2.0:将大语言模型转化为 GUI 交互智能体 微软的 OmniParser 发布了 V2 更新,这一版本的核心目标是将任何大语言模型(LLM)转化为能够理解和交互图形用户界面(GUI)的智能体。相比前一代,OmniParser V2 在检测更小可... 多模态模型# OmniParser V2.0# 微软# 智能体 4天前090
面壁智能推出开源多模态大语言模型MiniCPM-V 2.6:可以在手机上运行与GPT-4V水平相当的任务 面壁智能昨日开源了 MiniCPM-V 2.6 模型,官方表示将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平。MiniCPM-V是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文... 多模态模型# MiniCPM-V 2.6# 面壁智能 2周前03450
新型目标检测模型Mamba-YOLO-World:能够理解并识别各种不同物体的智能系统,即使这些物体在训练时没有被明确标记 复旦大学计算机学院、腾讯优图实验室、上海交通大学等的研究人体推出新型目标检测模型Mamba-YOLO-World,它专门设计用于开放词汇检测(Open-Vocabulary Detection,简称O... 多模态模型# Mamba-YOLO-World# 目标检测模型 2周前04520
JoyCaption:从零开始构建的免费、开放且未经审查的视觉语言模型 JoyCaption,一个从零开始构建的免费、开放且未经审查的视觉语言模型(VLM),旨在助力社区训练SD或Flux模型。它不仅免费开放,还提供训练脚本和丰富的构建细节,就像bigASP一样。 Dem... 多模态模型# JoyCaption# 视觉语言模型 2周前03670
GOT-OCR-2.0模型:专为识别和处理各种字符而设计的OCR模型 GOT-OCR 模型是一个参数量达 580M 的OCR系统,专为识别和处理各种字符而设计。该模型配备了高压缩编码器和长上下文解码器,能够精准处理各种场景和文档风格的图像。它支持多页和动态分辨率的 OC... 多模态模型# GOT-OCR-2.0# OCR模型 2周前02940
多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed:经过指令调整的Qwen2-VL-7B-Instruct版本 Qwen2-VL-7B-Captioner-Relaxed 是 Qwen2-VL-7B-Instruct 的一个经过指令调整的版本,它是一个多模态大语言模型。这个经过精细调整的版本是基于一个为文生图模... 多模态模型# Qwen2-VL-7B-Captioner-Relaxed# 多模态大语言模型 2周前03580
新型多模态模型家族Molmo:专门设计用于理解和处理图像和文本数据 华盛顿大学和艾伦人工智能研究所的研究人员推出新型多模态模型家族Molmo,这些模型专门设计用于理解和处理图像和文本数据。Molmo的目标是提供一个最先进的、开放的多模态模型,Molmo的关键创新是一个... 多模态模型# Molmo# 多模态模型 2周前02300
Meta发布 Llama 3.2 模型:从 轻量级纯文本模型(1B 和 3B)到 中小型多模态模型(11B 和 90B) Meta于9月25日正式推出了Llama 3.2模型,这款新模型以其开放性和可定制性为特点,旨在满足开发者在边缘人工智能和视觉处理领域的多样化需求。Llama 3.2 结合了多模态视觉能力和轻量化设计... 多模态模型# Llama 3.2# Meta 2周前02250
智源研究院推出全新多模态系列模型Emu3 智源研究院推出Emu3,这是一个全新的多模态系列模型,它仅使用下一个词元(Token)预测这一建模范式进行训练,达到了最先进的水平。Emu3 通过一个 Transformer 模型在视频、图像和文本令... 多模态模型# Emu3# 多模态模型# 智源研究院 2周前02330