多模态模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed：经过指令调整的Qwen2-VL-7B-Instruct版本

Qwen2-VL-7B-Captioner-Relaxed 是 Qwen2-VL-7B-Instruct 的一个经过指令调整的版本，它是一个多模态大语言模型。这个经过精细调整的版本是基于一个为文生图模...

多模态模型 # Qwen2-VL-7B-Captioner-Relaxed # 多模态大语言模型

12个月前

05630

新型多模态模型家族Molmo：专门设计用于理解和处理图像和文本数据

华盛顿大学和艾伦人工智能研究所的研究人员推出新型多模态模型家族Molmo，这些模型专门设计用于理解和处理图像和文本数据。Molmo的目标是提供一个最先进的、开放的多模态模型，Molmo的关键创新是一个...

多模态模型 # Molmo # 多模态模型

12个月前

04510

Meta发布 Llama 3.2 模型：从轻量级纯文本模型（1B 和 3B）到中小型多模态模型（11B 和 90B）

Meta于9月25日正式推出了Llama 3.2模型，这款新模型以其开放性和可定制性为特点，旨在满足开发者在边缘人工智能和视觉处理领域的多样化需求。Llama 3.2 结合了多模态视觉能力和轻量化设计...

多模态模型 # Llama 3.2 # Meta

12个月前

04160

智源研究院推出全新多模态系列模型Emu3

智源研究院推出Emu3，这是一个全新的多模态系列模型，它仅使用下一个词元（Token）预测这一建模范式进行训练，达到了最先进的水平。Emu3 通过一个 Transformer 模型在视频、图像和文本令...

多模态模型 # Emu3 # 多模态模型 # 智源研究院

12个月前

04210

新型CLIP专家混合模型CLIP-MoE：可以无缝替换CLIP，以即插即用的方式，而无需在下游框架中进一步适应

香港中文大学、上海人工智能实验室和舒尔茨大学的研究人员推出新型CLIP模型CLIP-MoE，它是为了增强现有的多模态智能模型CLIP而设计的。CLIP-MoE可以无缝替换CLIP，以即插即用的方式，而...

多模态模型 # CLIP-MoE # 多模态智能模型

12个月前

05860

新型开源大型多模态模型LLaVA-Critic：用于评估各种多模态任务的性能

字节跳动和马里兰大学帕克分校的研究人员推出新型开源大型多模态模型LLaVA-Critic，它被设计成一个全能的评估者，用于评估各种多模态任务的性能。多模态任务通常涉及理解和生成与图像、视频和文本相关的...

多模态模型 # LLaVA-Critic # 多模态模型

12个月前

04430

大型多模态模型LLaVA-Video：专门设计来处理视频指令并进行视频内容理解

字节跳动、南洋理工大学S-Lab和北京邮电大学的研究人员推出大型多模态模型LLaVA-Video，专门设计来处理视频指令并进行视频内容理解。这个模型特别擅长于解析和生成与视频内容相关的语言描述，比如详...

多模态模型 # LLaVA-Video # 多模态模型

12个月前

05600

新型多模态原生模型Aria：专门设计来处理和理解多种类型的信息（文本、代码、图像和视频）

Rhymes AI推出新型多模态原生模型Aria，这是一个开源的混合专家（MoE）模型，ARIA专门设计来处理和理解多种类型的信息，比如文本、代码、图像和视频，而且它能够像人类一样，不需要特别区分这些...

多模态模型 # Aria # Rhymes AI # 多模态模型

12个月前

05430

阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B：能够同时处理和理解文本和视觉信息

Ovis1.6-Gemma2-9B是阿里国际推出的一款多模态大语言模型，Ovis是一种新颖的多模态大语言模型（MLLM）架构，旨在结构化地对齐视觉和文本嵌入。Ovis1.6-Gemma2-9B基于O...

多模态模型 # Ovis1.6-Gemma2-9B # 多模态大语言模型

12个月前

05430

深度求索推出新颖自回归框架 Janus：具有图像生成功能的 13 亿多模态模型

多模态AI模型是能够理解和生成视觉内容的强大工具。然而，现有方法通常使用单一视觉编码器来处理这两项任务，这导致了由于理解和生成在本质上不同的需求而表现不佳。理解需要高层次的语义抽象，而生成则关注局部细...

多模态模型 # Janus # 多模态模型

12个月前

09090

图像编辑通用模型OMNI-EDIT：通过专家监督来构建，能够执行多种图像编辑任务

指令引导的图像编辑方法通过在自动合成或手动标注的图像编辑对上训练扩散模型，展示了显著的潜力。然而，这些方法在实际应用中仍然存在明显的不足。滑铁卢大学和威斯康星大学麦迪逊分校的研究人员识别了导致这一差距...

多模态模型 # OMNI-EDIT # 图像编辑

12个月前

04430

深度求索推出统一图像理解和生成的创新框架JanusFlow：将图像理解和生成统一在一个模型中

来自深度求索（DeepSeek-AI）、香港大学、清华大学和北京大学的研究人员提出了一种名为JanusFlow的创新框架，该框架将图像理解和生成统一在一个模型中。JanusFlow引入了一个极简的架构...

多模态模型 # JanusFlow # 深度求索

12个月前

05180

加载更多

多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed：经过指令调整的Qwen2-VL-7B-Instruct版本

新型多模态模型家族Molmo：专门设计用于理解和处理图像和文本数据

Meta发布 Llama 3.2 模型：从轻量级纯文本模型（1B 和 3B）到中小型多模态模型（11B 和 90B）

智源研究院推出全新多模态系列模型Emu3

新型CLIP专家混合模型CLIP-MoE：可以无缝替换CLIP，以即插即用的方式，而无需在下游框架中进一步适应

新型开源大型多模态模型LLaVA-Critic：用于评估各种多模态任务的性能

大型多模态模型LLaVA-Video：专门设计来处理视频指令并进行视频内容理解

新型多模态原生模型Aria：专门设计来处理和理解多种类型的信息（文本、代码、图像和视频）

阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B：能够同时处理和理解文本和视觉信息

深度求索推出新颖自回归框架 Janus：具有图像生成功能的 13 亿多模态模型

图像编辑通用模型OMNI-EDIT：通过专家监督来构建，能够执行多种图像编辑任务

深度求索推出统一图像理解和生成的创新框架JanusFlow：将图像理解和生成统一在一个模型中

新QoderWork

Clawdbot/Moltbot

Situation Monitor

Skills.sh

中国科技云数据胶囊

Fogsight (雾象)

多模态模型

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

Skills.sh

中国科技云数据胶囊

Fogsight (雾象)