SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态大语言模型

    共 30 篇文章
    排序
    发布更新浏览点赞
    字节跳动推出多模态大语言模型ChatTS:专门用于时间序列分析

    字节跳动推出多模态大语言模型ChatTS:专门用于时间序列分析

    清华大学和字节跳动的研究人员推出多模态大语言模型ChatTS ,专门用于时间序列分析。它通过自然语言命令帮助用户快速理解时间序列数据,执行日常任务,并处理复杂的推理问题。ChatTS 的核心优势在于其...
    多模态模型# ChatTS# 多模态大语言模型# 字节跳动
    9个月前
    02600
    多模态大语言模型Omni-RGPT:在统一图像和视频的区域级理解

    多模态大语言模型Omni-RGPT:在统一图像和视频的区域级理解

    英伟达和延世大学的研究人员推出多模态大语言模型Omni-RGPT,旨在统一图像和视频的区域级理解。Omni-RGPT通过一种新颖的区域表示方法——Token Mark,实现了对图像和视频中特定区域的深...
    新技术# Omni-RGPT# 多模态大语言模型
    1年前
    02550
    DeepPerception:通过结合知识和推理能力,提升多模态大语言模型在细粒度视觉识别任务中的表现

    DeepPerception:通过结合知识和推理能力,提升多模态大语言模型在细粒度视觉识别任务中的表现

    澳门大学、清华大学、西北工业大学和山东大学的研究人员推出DeepPerception,在多模态大语言模型(MLLMs)中推进类似R1的认知视觉感知,用于知识密集型视觉定位。这项研究旨在通过结合知识和推...
    新技术# DeepPerception# 多模态大语言模型
    11个月前
    02410
    UniVG-R1:通过推理引导的多模态大语言模型实现通用视觉定位

    UniVG-R1:通过推理引导的多模态大语言模型实现通用视觉定位

    传统视觉定位方法主要关注单图像场景,依赖于简单文本引用。然而,在现实世界中,处理隐含和复杂的指令,尤其是在涉及多图像的情况下,是一个重大挑战,主要原因是缺乏跨多模态上下文的高级推理能力。 项目主页:h...
    新技术# UniVG-R1# 多模态大语言模型# 视觉定位
    8个月前
    02280
    拥有20亿参数的多模态大语言模型Open-Qwen2VL

    拥有20亿参数的多模态大语言模型Open-Qwen2VL

    在多模态大语言模型(MLLMs)的研究与应用中,视觉与文本模态的融合正在不断拓展其边界,从图像描述到视觉问答,再到复杂文档的解读,这些模型展现出了强大的能力。然而,这一领域的进一步发展面临着诸多挑战...
    多模态模型# Open-Qwen2VL# 多模态大语言模型
    10个月前
    01870
    北卡教堂山分校新研究:GPT-5、Gemini-2.5-Pro等顶级多模态大语言模型,竟难区分图像90°与270°旋转

    北卡教堂山分校新研究:GPT-5、Gemini-2.5-Pro等顶级多模态大语言模型,竟难区分图像90°与270°旋转

    北卡罗来纳大学教堂山分校的研究团队,针对多模态大语言模型(MLLMs)的空间视觉推理能力展开专项测试——聚焦“图像旋转角度识别”任务(判断图像是否旋转0°、90°、180°、270°)。 GitHub...
    新技术# RotBench# 多模态大语言模型# 空间视觉推理能力
    5个月前
    01460
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Awesome Clawdbot(Moltbot) Skills

    新Awesome Clawdbot(Moltbot) Skills

    社区维护了一份名为 Awesome Clawdbot (Moltbot) Skills 的精选技能集合。该列表收录了 565 项以上 来自 ClawdHub(Moltbot 官方公共技能注册表)的技能,并按功能类别组织,便于浏览与安装。
    查看完整榜单