新型CLIP专家混合模型CLIP-MoE:可以无缝替换CLIP,以即插即用的方式,而无需在下游框架中进一步适应 香港中文大学、上海人工智能实验室和舒尔茨大学的研究人员推出新型CLIP模型CLIP-MoE,它是为了增强现有的多模态智能模型CLIP而设计的。CLIP-MoE可以无缝替换CLIP,以即插即用的方式,而... 多模态模型# CLIP-MoE# 多模态智能模型 2周前03840
新型开源大型多模态模型LLaVA-Critic:用于评估各种多模态任务的性能 字节跳动和马里兰大学帕克分校的研究人员推出新型开源大型多模态模型LLaVA-Critic,它被设计成一个全能的评估者,用于评估各种多模态任务的性能。多模态任务通常涉及理解和生成与图像、视频和文本相关的... 多模态模型# LLaVA-Critic# 多模态模型 2周前02550
大型多模态模型LLaVA-Video:专门设计来处理视频指令并进行视频内容理解 字节跳动、南洋理工大学S-Lab和北京邮电大学的研究人员推出大型多模态模型LLaVA-Video,专门设计来处理视频指令并进行视频内容理解。这个模型特别擅长于解析和生成与视频内容相关的语言描述,比如详... 多模态模型# LLaVA-Video# 多模态模型 2周前03450
新型多模态原生模型Aria:专门设计来处理和理解多种类型的信息(文本、代码、图像和视频) Rhymes AI推出新型多模态原生模型Aria,这是一个开源的混合专家(MoE)模型,ARIA专门设计来处理和理解多种类型的信息,比如文本、代码、图像和视频,而且它能够像人类一样,不需要特别区分这些... 多模态模型# Aria# Rhymes AI# 多模态模型 2周前03060
阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B:能够同时处理和理解文本和视觉信息 Ovis1.6-Gemma2-9B是阿里国际推出的一款多模态大语言模型,Ovis是一种新颖的多模态大语言模型(MLLM)架构,旨在结构化地对齐视觉和文本嵌入。Ovis1.6-Gemma2-9B基于O... 多模态模型# Ovis1.6-Gemma2-9B# 多模态大语言模型 2周前03310
深度求索推出新颖自回归框架 Janus: 具有图像生成功能的 13 亿多模态模型 多模态AI模型是能够理解和生成视觉内容的强大工具。然而,现有方法通常使用单一视觉编码器来处理这两项任务,这导致了由于理解和生成在本质上不同的需求而表现不佳。理解需要高层次的语义抽象,而生成则关注局部细... 多模态模型# Janus# 多模态模型 2周前06240
图像编辑通用模型OMNI-EDIT:通过专家监督来构建,能够执行多种图像编辑任务 指令引导的图像编辑方法通过在自动合成或手动标注的图像编辑对上训练扩散模型,展示了显著的潜力。然而,这些方法在实际应用中仍然存在明显的不足。滑铁卢大学和威斯康星大学麦迪逊分校的研究人员识别了导致这一差距... 多模态模型# OMNI-EDIT# 图像编辑 2周前01780
深度求索推出统一图像理解和生成的创新框架JanusFlow:将图像理解和生成统一在一个模型中 来自深度求索(DeepSeek-AI)、香港大学、清华大学和北京大学的研究人员提出了一种名为JanusFlow的创新框架,该框架将图像理解和生成统一在一个模型中。JanusFlow引入了一个极简的架构... 多模态模型# JanusFlow# 深度求索 2周前02370
Nexa AI 推出迷你视觉语言模型 OmniVision-968M Nexa AI 最新发布了 OmniVision-968M,这是一款专为边缘设备设计的视觉语言模型,它通过技术创新,将图像标记数量大幅减少,显著降低了延迟和计算负担,还提升了处理速度,为边缘计算领域带... 多模态模型# Nexa AI# OmniVision-968M# 视觉语言模型 2周前03530
Jina CLIP v2:用于文本和图像的多语言多模态嵌入 在互联互通的世界中,跨多种语言和媒介的有效沟通变得越来越重要。多模态AI在结合图像和文本以实现不同语言的无缝检索和理解方面面临着诸多挑战。现有的模型在英语中表现良好,但在其他语言中则表现不佳。此外,同... 多模态模型# Jina CLIP v2# 多语言多模态嵌入 2周前01260
Hugging Face发布一个用于设备上推理的2B参数小型多模态模型SmolVLM 近年来,随着机器学习技术的飞速发展,视觉-语言模型(VLM)的需求不断增加。这些模型能够处理图像和文本的组合任务,如图像描述、问答和故事生成等。然而,大多数现有的VLM需要大量的计算资源和内存,这限制... 多模态模型# Hugging Face# SmolVLM# 多模态模型 2周前01150
用于 GUI 自动化的视觉代理模型ShowUI:结合了视觉、语言和行动能力,提高人机交互的效率和生产力 新加坡国立大学和微软的研究人员推出用于 GUI(图形用户界面) 自动化的视觉代理模型ShowUI ,它是一个结合了视觉、语言和行动能力的大模型,旨在提高人机交互的效率和生产力。ShowUI通过理解和执... 多模态模型# ShowUI# 视觉代理模型 2周前01270