SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    视觉-语言模型

    共 5 篇文章
    排序
    发布更新浏览点赞
    视觉-语言模型FINECAPTION:专注于在任意位置和任意粒度级别上进行组合式图像描述

    视觉-语言模型FINECAPTION:专注于在任意位置和任意粒度级别上进行组合式图像描述

    随着大型视觉语言模型(VLMs)的出现,多模态任务的发展取得了显著进展。这些模型在图像和视频字幕、视觉问答以及跨模态检索等应用中展现了强大的推理能力。然而,尽管VLMs具有卓越的表现,它们在细粒度图像...
    新技术# FINECAPTION# 视觉-语言模型
    1年前
    03250
    LFM2-VL:轻量高效、面向设备端的视觉-语言模型

    LFM2-VL:轻量高效、面向设备端的视觉-语言模型

    在多模态大模型不断追求更高参数量和更强性能的当下,效率与部署可行性正成为实际应用的关键瓶颈。许多视觉-语言模型(VLM)虽在基准测试中表现优异,但其高计算成本和长推理延迟,使其难以在手机、可穿戴设备或...
    多模态模型# LFM2-VL# 视觉-语言模型
    6个月前
    03230
    Holo1:HCompany开源高性能视觉-语言模型,赋能Surfer-H代理实现精准网页交互

    Holo1:HCompany开源高性能视觉-语言模型,赋能Surfer-H代理实现精准网页交互

    Holo1 是由 HCompany 开发的一款专为网络代理系统设计的 动作视觉-语言模型(VLM),作为 Surfer-H 网络代理的核心组件之一,它具备像人类用户一样与网页界面交互的能力。 模型:h...
    多模态模型# Holo1# 视觉-语言模型
    8个月前
    02960
    腾讯AI实验室联合两校发布Vision-SR1:自我奖励+推理分解,破解VLM视觉推理难题

    腾讯AI实验室联合两校发布Vision-SR1:自我奖励+推理分解,破解VLM视觉推理难题

    腾讯AI实验室联合马里兰大学帕克分校、华盛顿大学圣路易斯分校的研究团队,共同发布了新型视觉-语言模型(VLM)——Vision-SR1。该模型聚焦于解决传统VLM的核心痛点,通过创新的“自我奖励机制...
    多模态模型# Vision-SR1# 视觉-语言模型
    5个月前
    02430
    视觉-语言模型中的“隐形损耗”:我们如何测量图像信息的丢失?

    视觉-语言模型中的“隐形损耗”:我们如何测量图像信息的丢失?

    视觉-语言模型(Vision-Language Models, VLMs)如 LLaVA、Qwen-VL 等,在图像理解、视觉问答和图文生成等任务中表现优异。这些模型通常依赖一个核心流程:将图像通过视...
    多模态模型# 视觉-语言模型
    4个月前
    01340
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Awesome Clawdbot(Moltbot) Skills

    新Awesome Clawdbot(Moltbot) Skills

    社区维护了一份名为 Awesome Clawdbot (Moltbot) Skills 的精选技能集合。该列表收录了 565 项以上 来自 ClawdHub(Moltbot 官方公共技能注册表)的技能,并按功能类别组织,便于浏览与安装。
    查看完整榜单