多模态大语言模型

排序

发布更新浏览点赞

基于 SEED-X 的新型多模态大语言模型SEED-Story：根据用户提供的文本和图片生成长篇的图文故事

香港科技大学（广州）、腾讯、香港中文大学和香港科技大学的研究人员推出新型多模态大语言模型SEED-Story，它能够根据用户提供的文本和图片生成长篇的多模态故事。这些故事不仅包含丰富的叙事文本，还包括...

2年前

01,1490

多模态大语言模型LITA：专门设计来处理视频中的时间定位问题

英伟达推出多模态大语言模型LITA（Language Instructed Temporal-Localization Assistant），它专门设计来处理视频中的时间定位问题。 GitHub 论文...

新技术 # LITA # 多模态大语言模型

2年前

08280

多模态大语言模型Groma：具备精细化和定位化的视觉感知能力

来自香港大学和字节跳动的研究人员推出多模态大语言模型Groma，它具备精细化和定位化的视觉感知能力。Groma不仅能够理解整个图像的内容，还能处理区域级别的任务，比如区域字幕（region capti...

新技术 # Groma # 多模态大语言模型

2年前

06560

新型多模态大语言模型INF-LLaVA：专门设计用于处理高分辨率图像，以提高模型对视觉和语言信息的理解能力

厦门大学的研究人员推出新型多模态大语言模型INF-LLaVA，它专门设计用于处理高分辨率图像，以提高模型对视觉和语言信息的理解能力。在人工智能领域，处理高分辨率图像一直是一个挑战，因为这些图像包含的细...

新技术 # INF-LLaVA # 多模态大语言模型

2年前

06360

多模态大语言模型Oryx：专门设计用于理解和处理视觉数据，如图像、视频和3D场景

清华大学、腾讯和南洋理工大学 S-Lab的研究人员推出多模态大语言模型Oryx，它专门设计用于理解和处理视觉数据，如图像、视频和3D场景。Oryx模型的特点是能够根据需要处理任意空间大小和时间长度的视...

新技术 # Oryx # 多模态大语言模型

2年前

06350

英伟达推出多模态大语言模型Describe Anything 3B：为图像和视频局部描述量身定制的多模态 AI 模型

英伟达、加州大学伯克利分校和加州大学旧金山分校的研究人员推出了 Describe Anything 3B (DAM-3B)，这是一个专门用于生成细粒度图像和视频字幕的多模态大语言模型（LLM）。DAM...

多模态模型 # Describe Anything 3B # 多模态大语言模型 # 英伟达

11个月前

06110

多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed：经过指令调整的Qwen2-VL-7B-Instruct版本

Qwen2-VL-7B-Captioner-Relaxed 是 Qwen2-VL-7B-Instruct 的一个经过指令调整的版本，它是一个多模态大语言模型。这个经过精细调整的版本是基于一个为文生图模...

多模态模型 # Qwen2-VL-7B-Captioner-Relaxed # 多模态大语言模型

1年前

05870

多模态问答系统Lumos：结合场景文本识别和多模态大语言模型

来自Meta Reality Labs的研究人员推出了多模态问答系统Lumos，这是一个结合了场景文本识别（Scene Text Recognition, STR）和多模态大语言模型（Multimod...

新技术 # Lumos # 场景文本识别 # 多模态大语言模型

2年前

05850

阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B：能够同时处理和理解文本和视觉信息

Ovis1.6-Gemma2-9B是阿里国际推出的一款多模态大语言模型，Ovis是一种新颖的多模态大语言模型（MLLM）架构，旨在结构化地对齐视觉和文本嵌入。Ovis1.6-Gemma2-9B基于O...

多模态模型 # Ovis1.6-Gemma2-9B # 多模态大语言模型

1年前

05590

增强版多模态大语言模型ILLUME+ ：通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力

近年来，多模态大语言模型（MLLMs）在图像理解、生成和编辑任务中取得了显著进展。然而，现有的统一模型在同时处理这三种任务时面临挑战。例如，早期的模型（如 Chameleon 和 EMU3）使用 VQ...

多模态模型 # ILLUME # 图像生成 # 多模态大语言模型

12个月前

05470

StarVector：利用多模态大语言模型（MLLM）从图像和文本生成SVG代码

ServiceNow Research、魁北克人工智能研究所、加拿大 CIFAR 人工智能主席、不列颠哥伦比亚大学、高等工程技术学院和苹果的研究人员推出StarVector，利用多模态大语言模型（ML...

图像模型 # StarVector # SVG代码 # 多模态大语言模型

12个月前

04780

腾讯推出AnimeGamer：通过多模态大语言模型实现无限动漫生活模拟

近年来，图像和视频合成技术的发展为生成游戏带来了新的可能性。特别是将动漫电影中的角色转化为可互动、可玩的实体，让玩家能够以自己喜爱的角色身份沉浸在动态的动漫世界中，通过语言指令进行生活模拟。这种游戏被...

多模态模型 # AnimeGamer # 多模态大语言模型 # 无限动漫生活模拟

12个月前

04680

加载更多

基于 SEED-X 的新型多模态大语言模型SEED-Story：根据用户提供的文本和图片生成长篇的图文故事

多模态大语言模型LITA：专门设计来处理视频中的时间定位问题

多模态大语言模型Groma：具备精细化和定位化的视觉感知能力

新型多模态大语言模型INF-LLaVA：专门设计用于处理高分辨率图像，以提高模型对视觉和语言信息的理解能力

多模态大语言模型Oryx：专门设计用于理解和处理视觉数据，如图像、视频和3D场景

英伟达推出多模态大语言模型Describe Anything 3B：为图像和视频局部描述量身定制的多模态 AI 模型

多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed：经过指令调整的Qwen2-VL-7B-Instruct版本

多模态问答系统Lumos：结合场景文本识别和多模态大语言模型

阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B：能够同时处理和理解文本和视觉信息

增强版多模态大语言模型ILLUME+ ：通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力

StarVector：利用多模态大语言模型（MLLM）从图像和文本生成SVG代码

腾讯推出AnimeGamer：通过多模态大语言模型实现无限动漫生活模拟

OpenMAIC

新悟空

S.H.I.T

Meshy

Joker of Academics（小丑学术期刊）

360 安全龙虾

多模态大语言模型

网址

OpenMAIC

新悟空

S.H.I.T

Meshy

Joker of Academics（小丑学术期刊 ）

360 安全龙虾

Joker of Academics（小丑学术期刊）