多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

Convergence 发布基于视觉语言模型（VLM）的迷你开源模型 Proxy Lite

在数字化时代，自动化与 Web 内容交互的需求日益增长。然而，现有的解决方案往往面临资源密集型、任务特定化以及缺乏透明性等问题。这些问题限制了它们的广泛适用性和社区参与度。 GitHub：https...

11个月前

02970

微软研究院推出的多模态 AI 代理基础模型Magma

Magma 是由微软研究院推出的一款面向多模态AI代理的基础模型，为一系列智能任务提供强大的支持。它不仅具备视觉-语言（VL）模型的理解能力（即语言智能），还拥有在视觉空间世界中规划和执行动作的能力...

多模态模型 # Magma # 多模态 # 微软研究院

11个月前

03000

首个截图就能生成现代前端代码的多模态模型Flame

尽管前沿的多模态模型（如 GPT-4O）在代码生成上展现了强大的能力，但它们在真实的前端开发场景中仍无法满足现代前端工作流程的动态需求。这些模型虽然能够生成代码，但输出的前端代码通常是静态的，缺乏模块...

多模态模型 # Flame # 前端代码 # 多模态模型

11个月前

03950

Hugging Face 发布轻量级多模态模型SmolVLM2：专为视频内容分析而设计

Hugging Face 最新发布了一款轻量级多模态模型SmolVLM2，专为视频内容分析而设计。该模型以高效性和适应性为核心目标，旨在将视频理解能力扩展到从手机到服务器的各种设备上。SmolVLM2...

多模态模型 # Hugging Face # SmolVLM2 # 多模态模型

11个月前

02840

谷歌发布多语言视觉语言编码器SigLIP 2

今天，谷歌正式发布了 SigLIP 2——一个全新的多语言视觉语言编码器系列。SigLIP 2 在语义理解、定位和密集特征方面进行了显著改进，进一步提升了视觉语言模型的性能。官方说明：https...

多模态模型 # PaliGemma 2 # SigLIP 2 # 视觉编码器

11个月前

02540

阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL

阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL，对比此前发布的 Qwen2-VL 实现了巨大的飞跃。欢迎访问 Qwen Chat 并选择 Qwen2.5-VL-72B-I...

多模态模型 # Qwen2.5-VL # 视觉语言模型

11个月前

02500

谷歌推出PaliGemma 2 Mix：在混合视觉语言任务上进行微调的视觉语言模型版本，涵盖 OCR、长短字幕等多种任务

去年 12 月5日，谷歌发布了 PaliGemma 2，这是一个基于 SigLIP 和 Gemma 2 的新型预训练视觉语言模型（VLM）系列。这些模型提供了三种不同的尺寸（3B、10B、28B）和三...

多模态模型 # PaliGemma 2 Mix # 视觉语言模型 # 谷歌

12个月前

02370

让大语言模型“看懂”图形界面！微软推出 OmniParser V2.0：将大语言模型转化为 GUI 交互智能体

微软的 OmniParser 发布了 V2 更新，这一版本的核心目标是将任何大语言模型（LLM）转化为能够理解和交互图形用户界面（GUI）的智能体。相比前一代，OmniParser V2 在检测更小可...

多模态模型 # OmniParser V2.0 # 微软 # 智能体

12个月前

02900

面壁智能推出开源多模态大语言模型MiniCPM-V 2.6：可以在手机上运行与GPT-4V水平相当的任务

面壁智能昨日开源了 MiniCPM-V 2.6 模型，官方表示将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平。MiniCPM-V是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文...

多模态模型 # MiniCPM-V 2.6 # 面壁智能

12个月前

05330

新型目标检测模型Mamba-YOLO-World：能够理解并识别各种不同物体的智能系统，即使这些物体在训练时没有被明确标记

复旦大学计算机学院、腾讯优图实验室、上海交通大学等的研究人体推出新型目标检测模型Mamba-YOLO-World，它专门设计用于开放词汇检测（Open-Vocabulary Detection，简称O...

多模态模型 # Mamba-YOLO-World # 目标检测模型

12个月前

06740

JoyCaption：从零开始构建的免费、开放且未经审查的视觉语言模型

JoyCaption，一个从零开始构建的免费、开放且未经审查的视觉语言模型（VLM），旨在助力社区训练SD或Flux模型。它不仅免费开放，还提供训练脚本和丰富的构建细节，就像bigASP一样。 Dem...

多模态模型 # JoyCaption # 视觉语言模型

12个月前

05330

GOT-OCR-2.0模型：专为识别和处理各种字符而设计的OCR模型

GOT-OCR 模型是一个参数量达 580M 的OCR系统，专为识别和处理各种字符而设计。该模型配备了高压缩编码器和长上下文解码器，能够精准处理各种场景和文档风格的图像。它支持多页和动态分辨率的 OC...

多模态模型 # GOT-OCR-2.0 # OCR模型

12个月前

04590

加载更多

Convergence 发布基于视觉语言模型（VLM）的迷你开源模型 Proxy Lite

微软研究院推出的多模态 AI 代理基础模型Magma

首个截图就能生成现代前端代码的多模态模型Flame

Hugging Face 发布轻量级多模态模型SmolVLM2：专为视频内容分析而设计

谷歌发布多语言视觉语言编码器SigLIP 2

阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL

谷歌推出PaliGemma 2 Mix：在混合视觉语言任务上进行微调的视觉语言模型版本，涵盖 OCR、长短字幕等多种任务

让大语言模型“看懂”图形界面！微软推出 OmniParser V2.0：将大语言模型转化为 GUI 交互智能体

面壁智能推出开源多模态大语言模型MiniCPM-V 2.6：可以在手机上运行与GPT-4V水平相当的任务

新型目标检测模型Mamba-YOLO-World：能够理解并识别各种不同物体的智能系统，即使这些物体在训练时没有被明确标记

JoyCaption：从零开始构建的免费、开放且未经审查的视觉语言模型

GOT-OCR-2.0模型：专为识别和处理各种字符而设计的OCR模型

新QoderWork

Clawdbot/Moltbot

Situation Monitor

中国科技云数据胶囊

ITELLOU

Skills.sh

多模态模型

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

中国科技云数据胶囊

ITELLOU

Skills.sh