多模态大语言模型

共 30 篇文章

排序

发布更新浏览点赞

新型多模态大语言模型PUMA：不仅能理解文本指令，还能根据这些指令创作出精细的图像，或者对现有图像进行精确的编辑

新型多模态大语言模型PUMA：不仅能理解文本指令，还能根据这些指令创作出精细的图像，或者对现有图像进行精确的编辑

近年来，多模态基础模型在视觉-语言理解领域取得了显著进展，同时也开始探索多模态大语言模型（MLLMs）在视觉内容生成方面的潜力。然而，现有的工作在统一MLLM范式中处理不同图像生成任务的多样化粒度需求...

百科 # PUMA # 多模态大语言模型

1年前

04220

任务偏好优化TPO：通过视觉任务对齐来提升多模态大语言模型的性能

任务偏好优化TPO：通过视觉任务对齐来提升多模态大语言模型的性能

上海人工智能实验室、浙江大学、中国科学技术大学、上海交通大学、中国科学院深圳先进技术研究院和南京大学的研究人员推出一种名为任务偏好优化（Task Preference Optimization, TP...

新技术 # TPO # 任务偏好优化 # 多模态大语言模型

1年前

03400

Open-Vision-Reasoner（OVR）：基于语言认知迁移的多模态视觉推理新范式

Open-Vision-Reasoner（OVR）：基于语言认知迁移的多模态视觉推理新范式

大语言模型（LLMs）之所以具备强大的推理能力，关键在于其通过可验证奖励机制的强化学习所涌现的认知行为。那么，是否可以将这一原则迁移至多模态大语言模型（MLLMs），从而解锁其高级视觉推理能力？本研...

多模态模型 # Open-Vision-Reasoner # 多模态大语言模型

8个月前

03350

阿里国际发布多模态大语言模型Ovis2.5：原生分辨率视觉感知与深度推理的双重突破

阿里国际发布多模态大语言模型Ovis2.5：原生分辨率视觉感知与深度推理的双重突破

阿里国际正式推出 Ovis2.5 —— Ovis2 的继任者，一款在原生分辨率视觉理解和多模态推理能力上实现显著跃升的开源多模态大语言模型（MLLM）。 GitHub：https://github.c...

多模态模型 # Ovis2.5 # 多模态大语言模型 # 阿里国际

7个月前

03200

浙大 × 通义实验室提出 UI-S1：用“半在线”训练让 MLLM 更懂图形界面

浙大 × 通义实验室提出 UI-S1：用“半在线”训练让 MLLM 更懂图形界面

在手机上完成一连串操作——比如从微信复制一段文字，粘贴到备忘录，再分享给钉钉好友——对人类来说是日常小事。但对 AI 来说，这是一次复杂的多步决策挑战。近年来，基于多模态大语言模型（MLLM）的 G...

多模态模型 # UI-S1 # 多模态大语言模型

6个月前

03140

微软推出全新多模态大语言模型家族Florence-VL

微软推出全新多模态大语言模型家族Florence-VL

马里兰大学和微软研究院的研究团队共同提出了Florence-VL，这是一个全新的多模态大语言模型（MLLMs）家族。Florence-VL的视觉表示由生成式视觉基础模型Florence-2生成，与传统...

多模态模型 # Florence-VL # 多模态大语言模型 # 微软

1年前

03140

多模态大语言模型Lyra：专注于增强多模态能力，特别是高级长语音理解、声音理解、跨模态效率和无缝语音交互

多模态大语言模型Lyra：专注于增强多模态能力，特别是高级长语音理解、声音理解、跨模态效率和无缝语音交互

随着多模态大语言模型（MLLMs）的发展，扩展到单一领域之外的能力对于满足更通用和高效AI的需求至关重要。然而，之前的全模态模型在语音处理方面存在不足，忽视了其与视觉、文本等其他模态的深度整合。为了解...

多模态模型 # Lyra # 多模态大语言模型

1年前

03020

多模态大语言模型InternVL 2.5：处理和理解来自多种模态（如文本、图像和视频）的信息

多模态大语言模型InternVL 2.5：处理和理解来自多种模态（如文本、图像和视频）的信息

InternVL 2.5 是由上海人工智能实验室、商汤科技研究院、清华大学、南京大学、复旦大学、香港中文大学和上海交通大学等多家机构联合推出的一款先进的多模态大语言模型（MLLM）。该模型基于此前发布...

多模态模型 # InternVL 2.5 # 多模态大语言模型

1年前

02980

新型多模态大语言模型Sa2VA：将 SAM2 与 LLaVA相结合，实现对图像和视频的深入理解

新型多模态大语言模型Sa2VA：将 SAM2 与 LLaVA相结合，实现对图像和视频的深入理解

加州大学默塞德分校、字节跳动、武汉大学和北京大学的研究人员推出新型多模态大语言模型Sa2VA，它将SAM-2视频分割模型与LLaVA视觉-语言模型相结合，实现了对图像和视频的密集、基于语义的理解。Sa...

多模态模型 # Sa2VA # 多模态大语言模型

1年前

02810

华为诺亚方舟实验室推出多模态大语言模型ILLUME

华为诺亚方舟实验室推出多模态大语言模型ILLUME

华为诺亚方舟实验室发布多模态大语言模型ILLUME，旨在无缝集成图像和文本的理解与生成。ILLUME凭借其创新的架构和训练策略，在显著减少预训练所需数据量的同时，达到了最先进的性能。ILLUME基于统...

新技术 # ILLUME # 华为诺亚方舟实验室 # 多模态大语言模型

1年前

02810

多模态大语言模型ChatRex：提升对人类姿态的感知和理解能力

多模态大语言模型ChatRex：提升对人类姿态的感知和理解能力

IDEA的研究人员推出多模态大语言模型ChatRex，它旨在提升对人类姿态的感知和理解能力。ChatRex通过结合视觉和语言模型，能够执行多种与人体姿态相关任务，包括姿态理解、生成和编辑。这个模型特别...

多模态模型 # ChatRex # 多模态大语言模型

1年前

02780

OLA-VLM：提升多模态大语言模型中的视觉感知能力

OLA-VLM：提升多模态大语言模型中的视觉感知能力

开发当代多模态大语言模型（MLLMs）的标准做法是将视觉编码器的特征输入到大型语言模型（LLM）中，并通过自然语言监督进行训练。然而，这种方法存在一个潜在的局限性：仅依赖自然语言监督对于MLLM的视觉...

新技术 # OLA-VLM # 多模态大语言模型

1年前

02760