SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态大语言模型

    共 30 篇文章
    排序
    发布更新浏览点赞
    字节跳动推出多模态大语言模型ChatTS:专门用于时间序列分析

    字节跳动推出多模态大语言模型ChatTS:专门用于时间序列分析

    清华大学和字节跳动的研究人员推出多模态大语言模型ChatTS ,专门用于时间序列分析。它通过自然语言命令帮助用户快速理解时间序列数据,执行日常任务,并处理复杂的推理问题。ChatTS 的核心优势在于其...
    多模态模型# ChatTS# 多模态大语言模型# 字节跳动
    11个月前
    02710
    多模态大语言模型Omni-RGPT:在统一图像和视频的区域级理解

    多模态大语言模型Omni-RGPT:在统一图像和视频的区域级理解

    英伟达和延世大学的研究人员推出多模态大语言模型Omni-RGPT,旨在统一图像和视频的区域级理解。Omni-RGPT通过一种新颖的区域表示方法——Token Mark,实现了对图像和视频中特定区域的深...
    新技术# Omni-RGPT# 多模态大语言模型
    1年前
    02590
    DeepPerception:通过结合知识和推理能力,提升多模态大语言模型在细粒度视觉识别任务中的表现

    DeepPerception:通过结合知识和推理能力,提升多模态大语言模型在细粒度视觉识别任务中的表现

    澳门大学、清华大学、西北工业大学和山东大学的研究人员推出DeepPerception,在多模态大语言模型(MLLMs)中推进类似R1的认知视觉感知,用于知识密集型视觉定位。这项研究旨在通过结合知识和推...
    新技术# DeepPerception# 多模态大语言模型
    1年前
    02540
    UniVG-R1:通过推理引导的多模态大语言模型实现通用视觉定位

    UniVG-R1:通过推理引导的多模态大语言模型实现通用视觉定位

    传统视觉定位方法主要关注单图像场景,依赖于简单文本引用。然而,在现实世界中,处理隐含和复杂的指令,尤其是在涉及多图像的情况下,是一个重大挑战,主要原因是缺乏跨多模态上下文的高级推理能力。 项目主页:h...
    新技术# UniVG-R1# 多模态大语言模型# 视觉定位
    10个月前
    02400
    拥有20亿参数的多模态大语言模型Open-Qwen2VL

    拥有20亿参数的多模态大语言模型Open-Qwen2VL

    在多模态大语言模型(MLLMs)的研究与应用中,视觉与文本模态的融合正在不断拓展其边界,从图像描述到视觉问答,再到复杂文档的解读,这些模型展现出了强大的能力。然而,这一领域的进一步发展面临着诸多挑战...
    多模态模型# Open-Qwen2VL# 多模态大语言模型
    12个月前
    01920
    北卡教堂山分校新研究:GPT-5、Gemini-2.5-Pro等顶级多模态大语言模型,竟难区分图像90°与270°旋转

    北卡教堂山分校新研究:GPT-5、Gemini-2.5-Pro等顶级多模态大语言模型,竟难区分图像90°与270°旋转

    北卡罗来纳大学教堂山分校的研究团队,针对多模态大语言模型(MLLMs)的空间视觉推理能力展开专项测试——聚焦“图像旋转角度识别”任务(判断图像是否旋转0°、90°、180°、270°)。 GitHub...
    新技术# RotBench# 多模态大语言模型# 空间视觉推理能力
    7个月前
    01500
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    悟空

    新悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    360 安全龙虾

    360 安全龙虾

    60安全龙虾目前已接入16家国内主流大模型,覆盖文本生成、编程开发、多模态创作等多种能力。同时内置100余个高频技能,可直接用于文档生成、数据分析、PPT制作、会议转写等常见办公场景。
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    查看完整榜单