多模态大语言模型

排序

发布更新浏览点赞

多模态大语言模型Oryx：专门设计用于理解和处理视觉数据，如图像、视频和3D场景

清华大学、腾讯和南洋理工大学 S-Lab的研究人员推出多模态大语言模型Oryx，它专门设计用于理解和处理视觉数据，如图像、视频和3D场景。Oryx模型的特点是能够根据需要处理任意空间大小和时间长度的视...

新技术 # Oryx # 多模态大语言模型

2年前

06350

新型多模态大语言模型INF-LLaVA：专门设计用于处理高分辨率图像，以提高模型对视觉和语言信息的理解能力

厦门大学的研究人员推出新型多模态大语言模型INF-LLaVA，它专门设计用于处理高分辨率图像，以提高模型对视觉和语言信息的理解能力。在人工智能领域，处理高分辨率图像一直是一个挑战，因为这些图像包含的细...

新技术 # INF-LLaVA # 多模态大语言模型

2年前

06360

基于 SEED-X 的新型多模态大语言模型SEED-Story：根据用户提供的文本和图片生成长篇的图文故事

香港科技大学（广州）、腾讯、香港中文大学和香港科技大学的研究人员推出新型多模态大语言模型SEED-Story，它能够根据用户提供的文本和图片生成长篇的多模态故事。这些故事不仅包含丰富的叙事文本，还包括...

新技术 # SEED-Story # 图文故事 # 多模态大语言模型

2年前

01,1490

多模态大语言模型Groma：具备精细化和定位化的视觉感知能力

来自香港大学和字节跳动的研究人员推出多模态大语言模型Groma，它具备精细化和定位化的视觉感知能力。Groma不仅能够理解整个图像的内容，还能处理区域级别的任务，比如区域字幕（region capti...

新技术 # Groma # 多模态大语言模型

2年前

06560

多模态大语言模型LITA：专门设计来处理视频中的时间定位问题

英伟达推出多模态大语言模型LITA（Language Instructed Temporal-Localization Assistant），它专门设计来处理视频中的时间定位问题。 GitHub 论文...

新技术 # LITA # 多模态大语言模型

2年前

08280

多模态问答系统Lumos：结合场景文本识别和多模态大语言模型

来自Meta Reality Labs的研究人员推出了多模态问答系统Lumos，这是一个结合了场景文本识别（Scene Text Recognition, STR）和多模态大语言模型（Multimod...

新技术 # Lumos # 场景文本识别 # 多模态大语言模型

2年前

05850

没有了

多模态大语言模型Oryx：专门设计用于理解和处理视觉数据，如图像、视频和3D场景

新型多模态大语言模型INF-LLaVA：专门设计用于处理高分辨率图像，以提高模型对视觉和语言信息的理解能力

基于 SEED-X 的新型多模态大语言模型SEED-Story：根据用户提供的文本和图片生成长篇的图文故事

多模态大语言模型Groma：具备精细化和定位化的视觉感知能力

多模态大语言模型LITA：专门设计来处理视频中的时间定位问题

多模态问答系统Lumos：结合场景文本识别和多模态大语言模型

OpenMAIC

新悟空

S.H.I.T

Meshy

360 安全龙虾

Joker of Academics（小丑学术期刊）

多模态大语言模型

多模态大语言模型Oryx：专门设计用于理解和处理视觉数据，如图像、视频和3D场景

新型多模态大语言模型INF-LLaVA：专门设计用于处理高分辨率图像，以提高模型对视觉和语言信息的理解能力

基于 SEED-X 的新型多模态大语言模型SEED-Story：根据用户提供的文本和图片生成长篇的图文故事

多模态大语言模型Groma：具备精细化和定位化的视觉感知能力

多模态大语言模型LITA：专门设计来处理视频中的时间定位问题

多模态问答系统Lumos：结合场景文本识别和多模态大语言模型

网址

OpenMAIC

新悟空

S.H.I.T

Meshy

360 安全龙虾

Joker of Academics（小丑学术期刊 ）

Joker of Academics（小丑学术期刊）