Convergence 发布基于视觉语言模型(VLM)的迷你开源模型 Proxy Lite在数字化时代,自动化与 Web 内容交互的需求日益增长。然而,现有的解决方案往往面临资源密集型、任务特定化以及缺乏透明性等问题。这些问题限制了它们的广泛适用性和社区参与度。 GitHub:https...多模态模型# Convergence# Proxy Lite# 视觉语言模型11个月前02970
微软研究院推出的多模态 AI 代理基础模型MagmaMagma 是由微软研究院推出的一款面向多模态AI代理的基础模型,为一系列智能任务提供强大的支持。它不仅具备视觉-语言(VL)模型的理解能力(即语言智能),还拥有在视觉空间世界中规划和执行动作的能力...多模态模型# Magma# 多模态# 微软研究院11个月前03000
首个截图就能生成现代前端代码的多模态模型Flame尽管前沿的多模态模型(如 GPT-4O)在代码生成上展现了强大的能力,但它们在真实的前端开发场景中仍无法满足现代前端工作流程的动态需求。这些模型虽然能够生成代码,但输出的前端代码通常是静态的,缺乏模块...多模态模型# Flame# 前端代码# 多模态模型11个月前03950
Hugging Face 发布轻量级多模态模型SmolVLM2:专为视频内容分析而设计Hugging Face 最新发布了一款轻量级多模态模型SmolVLM2,专为视频内容分析而设计。该模型以高效性和适应性为核心目标,旨在将视频理解能力扩展到从手机到服务器的各种设备上。SmolVLM2...多模态模型# Hugging Face# SmolVLM2# 多模态模型11个月前02840
谷歌发布多语言视觉语言编码器SigLIP 2今天,谷歌正式发布了 SigLIP 2——一个全新的多语言视觉语言编码器系列。SigLIP 2 在语义理解、定位和密集特征方面进行了显著改进,进一步提升了视觉语言模型的性能。 官方说明:https...多模态模型# PaliGemma 2# SigLIP 2# 视觉编码器11个月前02540
阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL,对比此前发布的 Qwen2-VL 实现了巨大的飞跃。欢迎访问 Qwen Chat 并选择 Qwen2.5-VL-72B-I...多模态模型# Qwen2.5-VL# 视觉语言模型11个月前02500
谷歌推出PaliGemma 2 Mix:在混合视觉语言任务上进行微调的视觉语言模型版本,涵盖 OCR、长短字幕等多种任务去年 12 月5日,谷歌发布了 PaliGemma 2,这是一个基于 SigLIP 和 Gemma 2 的新型预训练视觉语言模型(VLM)系列。这些模型提供了三种不同的尺寸(3B、10B、28B)和三...多模态模型# PaliGemma 2 Mix# 视觉语言模型# 谷歌12个月前02370
让大语言模型“看懂”图形界面!微软推出 OmniParser V2.0:将大语言模型转化为 GUI 交互智能体微软的 OmniParser 发布了 V2 更新,这一版本的核心目标是将任何大语言模型(LLM)转化为能够理解和交互图形用户界面(GUI)的智能体。相比前一代,OmniParser V2 在检测更小可...多模态模型# OmniParser V2.0# 微软# 智能体12个月前02900
面壁智能推出开源多模态大语言模型MiniCPM-V 2.6:可以在手机上运行与GPT-4V水平相当的任务面壁智能昨日开源了 MiniCPM-V 2.6 模型,官方表示将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平。MiniCPM-V是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文...多模态模型# MiniCPM-V 2.6# 面壁智能12个月前05330
新型目标检测模型Mamba-YOLO-World:能够理解并识别各种不同物体的智能系统,即使这些物体在训练时没有被明确标记复旦大学计算机学院、腾讯优图实验室、上海交通大学等的研究人体推出新型目标检测模型Mamba-YOLO-World,它专门设计用于开放词汇检测(Open-Vocabulary Detection,简称O...多模态模型# Mamba-YOLO-World# 目标检测模型12个月前06740
JoyCaption:从零开始构建的免费、开放且未经审查的视觉语言模型JoyCaption,一个从零开始构建的免费、开放且未经审查的视觉语言模型(VLM),旨在助力社区训练SD或Flux模型。它不仅免费开放,还提供训练脚本和丰富的构建细节,就像bigASP一样。 Dem...多模态模型# JoyCaption# 视觉语言模型12个月前05330
GOT-OCR-2.0模型:专为识别和处理各种字符而设计的OCR模型GOT-OCR 模型是一个参数量达 580M 的OCR系统,专为识别和处理各种字符而设计。该模型配备了高压缩编码器和长上下文解码器,能够精准处理各种场景和文档风格的图像。它支持多页和动态分辨率的 OC...多模态模型# GOT-OCR-2.0# OCR模型12个月前04590