多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

开源视觉语言模型Moondream：将强大的图像理解能力与极小的资源占用完美结合

Moondream 是一款高效的开源视觉语言模型（VLM），它将强大的图像理解能力与极小的资源占用完美结合。这款模型设计初衷是为各种设备和平台提供多功能且易于访问的人工智能解决方案。官网：https...

多模态模型 # Moondream # 视觉语言模型

1年前

03350

微软推出全新多模态大语言模型家族Florence-VL

马里兰大学和微软研究院的研究团队共同提出了Florence-VL，这是一个全新的多模态大语言模型（MLLMs）家族。Florence-VL的视觉表示由生成式视觉基础模型Florence-2生成，与传统...

多模态模型 # Florence-VL # 多模态大语言模型 # 微软

1年前

03130

谷歌推出开源视觉语言模型PaliGemma2：增加了强大的视觉能力，更容易微调

今年5月，谷歌推出了 PaliGemma，这是 Gemma 家族中的第一个视觉语言模型，旨在使一流的视觉AI更加普及。现在，谷歌自豪地推出 PaliGemma 2，这是一个可调视觉语言模型的最新进化版...

多模态模型 # PaliGemma2 # 视觉语言模型 # 谷歌

1年前

03080

多模态大语言模型ChatRex：提升对人类姿态的感知和理解能力

IDEA的研究人员推出多模态大语言模型ChatRex，它旨在提升对人类姿态的感知和理解能力。ChatRex通过结合视觉和语言模型，能够执行多种与人体姿态相关任务，包括姿态理解、生成和编辑。这个模型特别...

多模态模型 # ChatRex # 多模态大语言模型

1年前

02750

用于 GUI 自动化的视觉代理模型ShowUI：结合了视觉、语言和行动能力，提高人机交互的效率和生产力

新加坡国立大学和微软的研究人员推出用于 GUI（图形用户界面）自动化的视觉代理模型ShowUI ，它是一个结合了视觉、语言和行动能力的大模型，旨在提高人机交互的效率和生产力。ShowUI通过理解和执...

多模态模型 # ShowUI # 视觉代理模型

1年前

02590

Hugging Face发布一个用于设备上推理的2B参数小型多模态模型SmolVLM

近年来，随着机器学习技术的飞速发展，视觉-语言模型（VLM）的需求不断增加。这些模型能够处理图像和文本的组合任务，如图像描述、问答和故事生成等。然而，大多数现有的VLM需要大量的计算资源和内存，这限制...

多模态模型 # Hugging Face # SmolVLM # 多模态模型

1年前

02950

Jina CLIP v2：用于文本和图像的多语言多模态嵌入

在互联互通的世界中，跨多种语言和媒介的有效沟通变得越来越重要。多模态AI在结合图像和文本以实现不同语言的无缝检索和理解方面面临着诸多挑战。现有的模型在英语中表现良好，但在其他语言中则表现不佳。此外，同...

多模态模型 # Jina CLIP v2 # 多语言多模态嵌入

1年前

03030

Nexa AI 推出迷你视觉语言模型 OmniVision-968M

Nexa AI 最新发布了 OmniVision-968M，这是一款专为边缘设备设计的视觉语言模型，它通过技术创新，将图像标记数量大幅减少，显著降低了延迟和计算负担，还提升了处理速度，为边缘计算领域带...

多模态模型 # Nexa AI # OmniVision-968M # 视觉语言模型

1年前

07450

深度求索推出统一图像理解和生成的创新框架JanusFlow：将图像理解和生成统一在一个模型中

来自深度求索（DeepSeek-AI）、香港大学、清华大学和北京大学的研究人员提出了一种名为JanusFlow的创新框架，该框架将图像理解和生成统一在一个模型中。JanusFlow引入了一个极简的架构...

多模态模型 # JanusFlow # 深度求索

1年前

05510

图像编辑通用模型OMNI-EDIT：通过专家监督来构建，能够执行多种图像编辑任务

指令引导的图像编辑方法通过在自动合成或手动标注的图像编辑对上训练扩散模型，展示了显著的潜力。然而，这些方法在实际应用中仍然存在明显的不足。滑铁卢大学和威斯康星大学麦迪逊分校的研究人员识别了导致这一差距...

多模态模型 # OMNI-EDIT # 图像编辑

1年前

04490

深度求索推出新颖自回归框架 Janus：具有图像生成功能的 13 亿多模态模型

多模态AI模型是能够理解和生成视觉内容的强大工具。然而，现有方法通常使用单一视觉编码器来处理这两项任务，这导致了由于理解和生成在本质上不同的需求而表现不佳。理解需要高层次的语义抽象，而生成则关注局部细...

多模态模型 # Janus # 多模态模型

1年前

09140

阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B：能够同时处理和理解文本和视觉信息

Ovis1.6-Gemma2-9B是阿里国际推出的一款多模态大语言模型，Ovis是一种新颖的多模态大语言模型（MLLM）架构，旨在结构化地对齐视觉和文本嵌入。Ovis1.6-Gemma2-9B基于O...

多模态模型 # Ovis1.6-Gemma2-9B # 多模态大语言模型

1年前

05480

加载更多