视觉语言模型

排序

发布更新浏览点赞

ComfyUI-AppleFastVLM：为 ComfyUI 打造的高效视觉语言模型节点，适用于图像描述、内容分析、自动化提示生成

为 ComfyUI 打造的高效视觉语言模型节点 —— 快速集成苹果FastVLM，支持 0.5B / 1.5B / 7B 模型，内置 4位/8位量化以提升内存效率 GitHub：https://git...

插件 # ComfyUI-AppleFastVLM # 苹果 # 视觉语言模型

6个月前

0920

阿里通义实验室发布 Qwen3-VL：迄今最强视觉语言模型，全面开源

阿里通义实验室 Qwen 项目组正式推出全新升级的 Qwen3-VL 系列——这是截至目前 Qwen 多模态体系中能力最全面、性能最先进的视觉语言模型（Vision-Language Model, V...

多模态模型 # Qwen3-VL # 视觉语言模型

6个月前

04370

抖音推出SAIL-VL2：面向细粒度感知与复杂推理的新一代开源视觉语言模型

由抖音 SAIL 团队与新加坡国立大学 LV-NUS 实验室联合研发，SAIL-VL2 是一款全新的开源视觉语言基础模型（Vision-Language Model, LVM），在 2B 和 8B 参...

多模态模型 # SAIL-VL2 # 抖音 # 视觉语言模型

6个月前

03250

苹果推出视觉语言模型FastVLM：用更少的视觉 Token，更快理解高分辨率图像

苹果近期发布了 FastVLM系列视觉语言模型，并首次引入其自研混合视觉编码器 FastViTHD。该模型解决当前多模态系统在处理高分辨率图像时面临的效率瓶颈，尤其在移动端和实时交互场景中展现出显著优...

多模态模型 # FastVLM # 苹果 # 视觉语言模型

7个月前

0910

视觉语言模型ClipTagger-12B：开源视频理解新标杆，性能对标 GPT-4.1，成本低至 1/15

程序化视频理解正在成为构建智能视觉系统的基础设施。从内容审核到自动化标注，从辅助功能到视频搜索引擎，开发者需要一种高效、可靠的方式，将原始视频帧转化为结构化、可搜索、可操作的数据。为此，Infere...

多模态模型 # ClipTagger-12B # 视觉语言模型

8个月前

05130

基于视觉语言模型的端到端多模态 SVG 生成框架OmniSVG：能够生成从简单图标到复杂动漫角色的高质量 SVG 图形

复旦大学和阶跃星辰的研究人员推出基于视觉语言模型（VLMs）的端到端多模态 SVG 生成框架OmniSVG，能够生成从简单图标到复杂动漫角色的高质量 SVG 图形，支持文本到 SVG、图像到 SVG ...

图像模型 # OmniSVG # SVG # 视觉语言模型

8个月前

02570

像素空间推理视觉语言模型Pixel Reasoner：引入像素空间推理的概念，显著提升了视觉语言模型在视觉密集型任务中的表现

中国科学技术大学、香港科技大学和滑铁卢大学的研究人员推出基于 Qwen2 的开源视觉语言模型Pixel Reasoner，它通过引入像素空间推理（pixel-space reasoning）的概念，显...

多模态模型 # Pixel Reasoner # 视觉语言模型

10个月前

03280

MiniMax推出视觉三重统一强化学习（RL）系统 V-Triune ：使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务

MiniMax推出视觉三重统一强化学习（RL）系统 V-Triune ，使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务。该系统通过整合三个互补组件——样本级数据格式化（Sample-Le...

多模态模型 # MiniMax # V-Triune # 视觉语言模型

10个月前

05050

苹果推出高效视觉语言模型FastVLM：通过优化视觉编码器来提高模型在处理高分辨率图像任务时的效率和性能

苹果推出一种高效视觉语言模型FastVLM，旨在通过优化视觉编码器（Vision Encoder）来提高模型在处理高分辨率图像任务时的效率和性能。FastVLM的核心是其创新的视觉编码器 FastVi...

多模态模型 # FastVLM # 苹果 # 视觉语言模型

11个月前

02880

新型指令式图像编辑框架FireEdit：利用区域感知的视觉语言模型（VLM），实现了对用户指令的细粒度理解和精确图像编辑

中山大学深圳校区、腾讯混元、清华大学和香港科技大学的研究人员推出新型指令式图像编辑框架FireEdit，它通过利用区域感知的视觉语言模型（VLM），实现了对用户指令的细粒度理解和精确图像编辑。Fire...

新技术 # FireEdit # 图像编辑 # 视觉语言模型

12个月前

05570

视觉语言模型SmolDocling：以高效的方式实现端到端的多模态文档转换

在数字化时代，文档处理和理解是许多行业和研究领域的核心需求。从学术论文到商业报告，从技术手册到专利文件，文档的高效转换和理解对于信息提取、知识管理和自动化流程至关重要。然而，传统的文档处理方法往往依赖...

多模态模型 # SmolDocling # 文档转换 # 视觉语言模型

1年前

05840

Convergence 发布基于视觉语言模型（VLM）的迷你开源模型 Proxy Lite

在数字化时代，自动化与 Web 内容交互的需求日益增长。然而，现有的解决方案往往面临资源密集型、任务特定化以及缺乏透明性等问题。这些问题限制了它们的广泛适用性和社区参与度。 GitHub：https...

多模态模型 # Convergence # Proxy Lite # 视觉语言模型

1年前

03030

加载更多

ComfyUI-AppleFastVLM：为 ComfyUI 打造的高效视觉语言模型节点，适用于图像描述、内容分析、自动化提示生成

阿里通义实验室发布 Qwen3-VL：迄今最强视觉语言模型，全面开源

抖音推出SAIL-VL2：面向细粒度感知与复杂推理的新一代开源视觉语言模型

苹果推出视觉语言模型FastVLM：用更少的视觉 Token，更快理解高分辨率图像

视觉语言模型ClipTagger-12B：开源视频理解新标杆，性能对标 GPT-4.1，成本低至 1/15

基于视觉语言模型的端到端多模态 SVG 生成框架OmniSVG：能够生成从简单图标到复杂动漫角色的高质量 SVG 图形

像素空间推理视觉语言模型Pixel Reasoner：引入像素空间推理的概念，显著提升了视觉语言模型在视觉密集型任务中的表现

MiniMax推出视觉三重统一强化学习（RL）系统 V-Triune ：使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务

苹果推出高效视觉语言模型FastVLM：通过优化视觉编码器来提高模型在处理高分辨率图像任务时的效率和性能

新型指令式图像编辑框架FireEdit：利用区域感知的视觉语言模型（VLM），实现了对用户指令的细粒度理解和精确图像编辑

视觉语言模型SmolDocling：以高效的方式实现端到端的多模态文档转换

Convergence 发布基于视觉语言模型（VLM）的迷你开源模型 Proxy Lite

S.H.I.T

OpenMAIC

Alaya Code

抓虾吧

ITELLOU

Jellyfish AI短剧工厂

视觉语言模型

网址

S.H.I.T

OpenMAIC

Alaya Code

抓虾吧

ITELLOU

Jellyfish AI短剧工厂