SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    视觉语言模型

    共 22 篇文章
    排序
    发布更新浏览点赞
    抖音推出SAIL-VL2:面向细粒度感知与复杂推理的新一代开源视觉语言模型

    抖音推出SAIL-VL2:面向细粒度感知与复杂推理的新一代开源视觉语言模型

    由抖音 SAIL 团队与新加坡国立大学 LV-NUS 实验室联合研发,SAIL-VL2 是一款全新的开源视觉语言基础模型(Vision-Language Model, LVM),在 2B 和 8B 参...
    多模态模型# SAIL-VL2# 抖音# 视觉语言模型
    4个月前
    03100
    谷歌推出开源视觉语言模型PaliGemma2:增加了强大的视觉能力,更容易微调

    谷歌推出开源视觉语言模型PaliGemma2:增加了强大的视觉能力,更容易微调

    今年5月,谷歌推出了 PaliGemma,这是 Gemma 家族中的第一个视觉语言模型,旨在使一流的视觉AI更加普及。现在,谷歌自豪地推出 PaliGemma 2,这是一个可调视觉语言模型的最新进化版...
    多模态模型# PaliGemma2# 视觉语言模型# 谷歌
    12个月前
    03060
    Convergence 发布基于视觉语言模型(VLM)的迷你开源模型 Proxy Lite

    Convergence 发布基于视觉语言模型(VLM)的迷你开源模型 Proxy Lite

    在数字化时代,自动化与 Web 内容交互的需求日益增长。然而,现有的解决方案往往面临资源密集型、任务特定化以及缺乏透明性等问题。这些问题限制了它们的广泛适用性和社区参与度。 GitHub:https...
    多模态模型# Convergence# Proxy Lite# 视觉语言模型
    11个月前
    02970
    像素空间推理视觉语言模型Pixel Reasoner:引入像素空间推理的概念,显著提升了视觉语言模型在视觉密集型任务中的表现

    像素空间推理视觉语言模型Pixel Reasoner:引入像素空间推理的概念,显著提升了视觉语言模型在视觉密集型任务中的表现

    中国科学技术大学、香港科技大学和滑铁卢大学的研究人员推出基于 Qwen2 的开源视觉语言模型Pixel Reasoner,它通过引入像素空间推理(pixel-space reasoning)的概念,显...
    多模态模型# Pixel Reasoner# 视觉语言模型
    8个月前
    02750
    苹果推出高效视觉语言模型FastVLM:通过优化视觉编码器来提高模型在处理高分辨率图像任务时的效率和性能

    苹果推出高效视觉语言模型FastVLM:通过优化视觉编码器来提高模型在处理高分辨率图像任务时的效率和性能

    苹果推出一种高效视觉语言模型FastVLM,旨在通过优化视觉编码器(Vision Encoder)来提高模型在处理高分辨率图像任务时的效率和性能。FastVLM的核心是其创新的视觉编码器 FastVi...
    多模态模型# FastVLM# 苹果# 视觉语言模型
    9个月前
    02600
    基于视觉语言模型的端到端多模态 SVG 生成框架OmniSVG:能够生成从简单图标到复杂动漫角色的高质量 SVG 图形

    基于视觉语言模型的端到端多模态 SVG 生成框架OmniSVG:能够生成从简单图标到复杂动漫角色的高质量 SVG 图形

    复旦大学和阶跃星辰的研究人员推出基于视觉语言模型(VLMs)的端到端多模态 SVG 生成框架OmniSVG,能够生成从简单图标到复杂动漫角色的高质量 SVG 图形,支持文本到 SVG、图像到 SVG ...
    图像模型# OmniSVG# SVG# 视觉语言模型
    6个月前
    02510
    阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL

    阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL

    阿里通义实验室发布了Qwen 模型家族的旗舰视觉语言模型Qwen2.5-VL,对比此前发布的 Qwen2-VL 实现了巨大的飞跃。欢迎访问 Qwen Chat 并选择 Qwen2.5-VL-72B-I...
    多模态模型# Qwen2.5-VL# 视觉语言模型
    11个月前
    02500
    谷歌推出PaliGemma 2 Mix:在混合视觉语言任务上进行微调的视觉语言模型版本,涵盖 OCR、长短字幕等多种任务

    谷歌推出PaliGemma 2 Mix:在混合视觉语言任务上进行微调的视觉语言模型版本,涵盖 OCR、长短字幕等多种任务

    去年 12 月5日,谷歌发布了 PaliGemma 2,这是一个基于 SigLIP 和 Gemma 2 的新型预训练视觉语言模型(VLM)系列。这些模型提供了三种不同的尺寸(3B、10B、28B)和三...
    多模态模型# PaliGemma 2 Mix# 视觉语言模型# 谷歌
    11个月前
    02370
    ComfyUI-AppleFastVLM:为 ComfyUI 打造的高效视觉语言模型节点,适用于图像描述、内容分析、自动化提示生成

    ComfyUI-AppleFastVLM:为 ComfyUI 打造的高效视觉语言模型节点,适用于图像描述、内容分析、自动化提示生成

    为 ComfyUI 打造的高效视觉语言模型节点 —— 快速集成苹果FastVLM,支持 0.5B / 1.5B / 7B 模型,内置 4位/8位量化以提升内存效率 GitHub:https://git...
    插件# ComfyUI-AppleFastVLM# 苹果# 视觉语言模型
    4个月前
    0850
    苹果推出视觉语言模型FastVLM:用更少的视觉 Token,更快理解高分辨率图像

    苹果推出视觉语言模型FastVLM:用更少的视觉 Token,更快理解高分辨率图像

    苹果近期发布了 FastVLM系列视觉语言模型,并首次引入其自研混合视觉编码器 FastViTHD。该模型解决当前多模态系统在处理高分辨率图像时面临的效率瓶颈,尤其在移动端和实时交互场景中展现出显著优...
    多模态模型# FastVLM# 苹果# 视觉语言模型
    5个月前
    0850
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Awesome Clawdbot(Moltbot) Skills

    新Awesome Clawdbot(Moltbot) Skills

    社区维护了一份名为 Awesome Clawdbot (Moltbot) Skills 的精选技能集合。该列表收录了 565 项以上 来自 ClawdHub(Moltbot 官方公共技能注册表)的技能,并按功能类别组织,便于浏览与安装。
    查看完整榜单