多模态大语言模型Oryx:专门设计用于理解和处理视觉数据,如图像、视频和3D场景 清华大学、腾讯和南洋理工大学 S-Lab的研究人员推出多模态大语言模型Oryx,它专门设计用于理解和处理视觉数据,如图像、视频和3D场景。Oryx模型的特点是能够根据需要处理任意空间大小和时间长度的视... 新技术# Oryx# 多模态大语言模型 5个月前03630
新型多模态大语言模型INF-LLaVA:专门设计用于处理高分辨率图像,以提高模型对视觉和语言信息的理解能力 厦门大学的研究人员推出新型多模态大语言模型INF-LLaVA,它专门设计用于处理高分辨率图像,以提高模型对视觉和语言信息的理解能力。在人工智能领域,处理高分辨率图像一直是一个挑战,因为这些图像包含的细... 新技术# INF-LLaVA# 多模态大语言模型 7个月前03900
基于 SEED-X 的新型多模态大语言模型SEED-Story:根据用户提供的文本和图片生成长篇的图文故事 香港科技大学(广州)、腾讯、香港中文大学和香港科技大学的研究人员推出新型多模态大语言模型SEED-Story,它能够根据用户提供的文本和图片生成长篇的多模态故事。这些故事不仅包含丰富的叙事文本,还包括... 新技术# SEED-Story# 图文故事# 多模态大语言模型 7个月前07240
多模态大语言模型Groma:具备精细化和定位化的视觉感知能力 来自香港大学和字节跳动的研究人员推出多模态大语言模型Groma,它具备精细化和定位化的视觉感知能力。Groma不仅能够理解整个图像的内容,还能处理区域级别的任务,比如区域字幕(region capti... 新技术# Groma# 多模态大语言模型 10个月前04880
多模态大语言模型LITA:专门设计来处理视频中的时间定位问题 英伟达推出多模态大语言模型LITA(Language Instructed Temporal-Localization Assistant),它专门设计来处理视频中的时间定位问题。 GitHub 论文... 新技术# LITA# 多模态大语言模型 11个月前05110
多模态问答系统Lumos:结合场景文本识别和多模态大语言模型 来自Meta Reality Labs的研究人员推出了多模态问答系统Lumos,这是一个结合了场景文本识别(Scene Text Recognition, STR)和多模态大语言模型(Multimod... 新技术# Lumos# 场景文本识别# 多模态大语言模型 1年前04040