多模态大语言模型

排序

发布更新浏览点赞

字节跳动推出多模态大语言模型ChatTS：专门用于时间序列分析

清华大学和字节跳动的研究人员推出多模态大语言模型ChatTS ，专门用于时间序列分析。它通过自然语言命令帮助用户快速理解时间序列数据，执行日常任务，并处理复杂的推理问题。ChatTS 的核心优势在于其...

9个月前

02600

多模态大语言模型Omni-RGPT：在统一图像和视频的区域级理解

英伟达和延世大学的研究人员推出多模态大语言模型Omni-RGPT，旨在统一图像和视频的区域级理解。Omni-RGPT通过一种新颖的区域表示方法——Token Mark，实现了对图像和视频中特定区域的深...

新技术 # Omni-RGPT # 多模态大语言模型

1年前

02550

DeepPerception：通过结合知识和推理能力，提升多模态大语言模型在细粒度视觉识别任务中的表现

澳门大学、清华大学、西北工业大学和山东大学的研究人员推出DeepPerception，在多模态大语言模型（MLLMs）中推进类似R1的认知视觉感知，用于知识密集型视觉定位。这项研究旨在通过结合知识和推...

新技术 # DeepPerception # 多模态大语言模型

11个月前

02410

UniVG-R1：通过推理引导的多模态大语言模型实现通用视觉定位

传统视觉定位方法主要关注单图像场景，依赖于简单文本引用。然而，在现实世界中，处理隐含和复杂的指令，尤其是在涉及多图像的情况下，是一个重大挑战，主要原因是缺乏跨多模态上下文的高级推理能力。项目主页：h...

新技术 # UniVG-R1 # 多模态大语言模型 # 视觉定位

8个月前

02280

拥有20亿参数的多模态大语言模型Open-Qwen2VL

在多模态大语言模型（MLLMs）的研究与应用中，视觉与文本模态的融合正在不断拓展其边界，从图像描述到视觉问答，再到复杂文档的解读，这些模型展现出了强大的能力。然而，这一领域的进一步发展面临着诸多挑战...

多模态模型 # Open-Qwen2VL # 多模态大语言模型

10个月前

01870

北卡教堂山分校新研究：GPT-5、Gemini-2.5-Pro等顶级多模态大语言模型，竟难区分图像90°与270°旋转

北卡罗来纳大学教堂山分校的研究团队，针对多模态大语言模型（MLLMs）的空间视觉推理能力展开专项测试——聚焦“图像旋转角度识别”任务（判断图像是否旋转0°、90°、180°、270°）。 GitHub...

新技术 # RotBench # 多模态大语言模型 # 空间视觉推理能力

5个月前

01460

没有了

字节跳动推出多模态大语言模型ChatTS：专门用于时间序列分析

多模态大语言模型Omni-RGPT：在统一图像和视频的区域级理解

DeepPerception：通过结合知识和推理能力，提升多模态大语言模型在细粒度视觉识别任务中的表现

UniVG-R1：通过推理引导的多模态大语言模型实现通用视觉定位

拥有20亿参数的多模态大语言模型Open-Qwen2VL

北卡教堂山分校新研究：GPT-5、Gemini-2.5-Pro等顶级多模态大语言模型，竟难区分图像90°与270°旋转

Clawdbot/Moltbot

Skills.sh

Situation Monitor

CutCut

Fogsight (雾象)

新Awesome Clawdbot(Moltbot) Skills

多模态大语言模型

字节跳动推出多模态大语言模型ChatTS：专门用于时间序列分析

多模态大语言模型Omni-RGPT：在统一图像和视频的区域级理解

DeepPerception：通过结合知识和推理能力，提升多模态大语言模型在细粒度视觉识别任务中的表现

UniVG-R1：通过推理引导的多模态大语言模型实现通用视觉定位

拥有20亿参数的多模态大语言模型Open-Qwen2VL

北卡教堂山分校新研究：GPT-5、Gemini-2.5-Pro等顶级多模态大语言模型，竟难区分图像90°与270°旋转

网址

Clawdbot/Moltbot

Skills.sh

Situation Monitor

CutCut

Fogsight (雾象)

新Awesome Clawdbot(Moltbot) Skills