多模态大语言模型 - SD百科

多模态大语言模型Omni-RGPT：在统一图像和视频的区域级理解

多模态大语言模型Omni-RGPT：在统一图像和视频的区域级理解

英伟达和延世大学的研究人员推出多模态大语言模型Omni-RGPT，旨在统一图像和视频的...

3周前 60

新型多模态大语言模型Sa2VA：将 SAM2 与 LLaVA相结合，实现对图像和视频的深入理解

新型多模态大语言模型Sa2VA：将 SAM2 与 LLaVA相结合，实现对图像和视频的深入理解

加州大学默塞德分校、字节跳动、武汉大学和北京大学的研究人员推出新型多模态大语...

4周前 78

任务偏好优化TPO：通过视觉任务对齐来提升多模态大语言模型的性能

任务偏好优化TPO：通过视觉任务对齐来提升多模态大语言模型的性能

上海人工智能实验室、浙江大学、中国科学技术大学、上海交通大学、中国科学院深圳...

2024-12-31 94

OLA-VLM：提升多模态大语言模型中的视觉感知能力

OLA-VLM：提升多模态大语言模型中的视觉感知能力

开发当代多模态大语言模型（MLLMs）的标准做法是将视觉编码器的特征输入到大型语言...

2024-12-14 100

多模态大语言模型Lyra：专注于增强多模态能力，特别是高级长语音理解、声音理解、跨模态效率和无缝语音交互

多模态大语言模型Lyra：专注于增强多模态能力，特别是高级长语音理解、声音理解、跨模态效率和无缝语音交互

随着多模态大语言模型（MLLMs）的发展，扩展到单一领域之外的能力对于满足更通用和...

2024-12-14 106

华为诺亚方舟实验室推出多模态大语言模型ILLUME

华为诺亚方舟实验室推出多模态大语言模型ILLUME

华为诺亚方舟实验室发布多模态大语言模型ILLUME，旨在无缝集成图像和文本的理解与...

2024-12-12 106

多模态大语言模型InternVL 2.5：处理和理解来自多种模态（如文本、图像和视频）的信息

多模态大语言模型InternVL 2.5：处理和理解来自多种模态（如文本、图像和视频）的信息

InternVL 2.5 是由上海人工智能实验室、商汤科技研究院、清华大学、南京大学、复旦...

2024-12-10 96

微软推出全新多模态大语言模型家族Florence-VL

微软推出全新多模态大语言模型家族Florence-VL

马里兰大学和微软研究院的研究团队共同提出了Florence-VL，这是一个全新的多模态大...

2024-12-06 96

多模态大语言模型ChatRex：提升对人类姿态的感知和理解能力

多模态大语言模型ChatRex：提升对人类姿态的感知和理解能力

IDEA的研究人员推出多模态大语言模型ChatRex，它旨在提升对人类姿态的感知和理解能...

2024-12-01 110

新型多模态大语言模型PUMA：不仅能理解文本指令，还能根据这些指令创作出精细的图像，或者对现有图像进行精确的编辑

新型多模态大语言模型PUMA：不仅能理解文本指令，还能根据这些指令创作出精细的图像，或者对现有图像进行精确的编辑

近年来，多模态基础模型在视觉-语言理解领域取得了显著进展，同时也开始探索多模态...

2024-10-24 230

阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B：能够同时处理和理解文本和视觉信息

阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B：能够同时处理和理解文本和视觉信息

Ovis1.6-Gemma2-9B是阿里国际推出的一款多模态大语言模型，Ovis是一种新颖的多模...

2024-10-12 312

多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed：经过指令调整的Qwen2-VL-7B-Instruct版本

多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed：经过指令调整的Qwen2-VL-7B-Instruct版本

Qwen2-VL-7B-Captioner-Relaxed 是 Qwen2-VL-7B-Instruct 的一个经过指令调整的版...

2024-09-24 342

升级VIP
全屏浏览
夜间模式
返回顶部