深度求索推出新颖自回归框架 Janus: 具有图像生成功能的 13 亿多模态模型 多模态AI模型是能够理解和生成视觉内容的强大工具。然而,现有方法通常使用单一视觉编码器来处理这两项任务,这导致了由于理解和生成在本质上不同的需求而表现不佳。理解需要高层次的语义抽象,而生成则关注局部细... 多模态模型# Janus# 多模态模型 2周前06210
设计灵感来源于PaLI-3!谷歌推出开源视觉语言模型PaliGemma PaliGemma 是谷歌推出的新一代视觉语言模型家族,其设计灵感来源于PaLI-3,能够接收图像与文本输入并生成文本输出。PaliGemma建立在包括SigLIP视觉模型和Gemma语言模型在内的开... 多模态模型# PaliGemma# 谷歌 2周前04670
新型目标检测模型Mamba-YOLO-World:能够理解并识别各种不同物体的智能系统,即使这些物体在训练时没有被明确标记 复旦大学计算机学院、腾讯优图实验室、上海交通大学等的研究人体推出新型目标检测模型Mamba-YOLO-World,它专门设计用于开放词汇检测(Open-Vocabulary Detection,简称O... 多模态模型# Mamba-YOLO-World# 目标检测模型 2周前04520
新型CLIP专家混合模型CLIP-MoE:可以无缝替换CLIP,以即插即用的方式,而无需在下游框架中进一步适应 香港中文大学、上海人工智能实验室和舒尔茨大学的研究人员推出新型CLIP模型CLIP-MoE,它是为了增强现有的多模态智能模型CLIP而设计的。CLIP-MoE可以无缝替换CLIP,以即插即用的方式,而... 多模态模型# CLIP-MoE# 多模态智能模型 2周前03830
JoyCaption:从零开始构建的免费、开放且未经审查的视觉语言模型 JoyCaption,一个从零开始构建的免费、开放且未经审查的视觉语言模型(VLM),旨在助力社区训练SD或Flux模型。它不仅免费开放,还提供训练脚本和丰富的构建细节,就像bigASP一样。 Dem... 多模态模型# JoyCaption# 视觉语言模型 2周前03670
多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed:经过指令调整的Qwen2-VL-7B-Instruct版本 Qwen2-VL-7B-Captioner-Relaxed 是 Qwen2-VL-7B-Instruct 的一个经过指令调整的版本,它是一个多模态大语言模型。这个经过精细调整的版本是基于一个为文生图模... 多模态模型# Qwen2-VL-7B-Captioner-Relaxed# 多模态大语言模型 2周前03580
Nexa AI 推出迷你视觉语言模型 OmniVision-968M Nexa AI 最新发布了 OmniVision-968M,这是一款专为边缘设备设计的视觉语言模型,它通过技术创新,将图像标记数量大幅减少,显著降低了延迟和计算负担,还提升了处理速度,为边缘计算领域带... 多模态模型# Nexa AI# OmniVision-968M# 视觉语言模型 2周前03500
面壁智能推出开源多模态大语言模型MiniCPM-V 2.6:可以在手机上运行与GPT-4V水平相当的任务 面壁智能昨日开源了 MiniCPM-V 2.6 模型,官方表示将端侧 AI 多模态能力拉升至全面对标 GPT-4V 水平。MiniCPM-V是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文... 多模态模型# MiniCPM-V 2.6# 面壁智能 2周前03450
大型多模态模型LLaVA-Video:专门设计来处理视频指令并进行视频内容理解 字节跳动、南洋理工大学S-Lab和北京邮电大学的研究人员推出大型多模态模型LLaVA-Video,专门设计来处理视频指令并进行视频内容理解。这个模型特别擅长于解析和生成与视频内容相关的语言描述,比如详... 多模态模型# LLaVA-Video# 多模态模型 2周前03440
阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B:能够同时处理和理解文本和视觉信息 Ovis1.6-Gemma2-9B是阿里国际推出的一款多模态大语言模型,Ovis是一种新颖的多模态大语言模型(MLLM)架构,旨在结构化地对齐视觉和文本嵌入。Ovis1.6-Gemma2-9B基于O... 多模态模型# Ovis1.6-Gemma2-9B# 多模态大语言模型 2周前03290
新型多模态原生模型Aria:专门设计来处理和理解多种类型的信息(文本、代码、图像和视频) Rhymes AI推出新型多模态原生模型Aria,这是一个开源的混合专家(MoE)模型,ARIA专门设计来处理和理解多种类型的信息,比如文本、代码、图像和视频,而且它能够像人类一样,不需要特别区分这些... 多模态模型# Aria# Rhymes AI# 多模态模型 2周前03040
GOT-OCR-2.0模型:专为识别和处理各种字符而设计的OCR模型 GOT-OCR 模型是一个参数量达 580M 的OCR系统,专为识别和处理各种字符而设计。该模型配备了高压缩编码器和长上下文解码器,能够精准处理各种场景和文档风格的图像。它支持多页和动态分辨率的 OC... 多模态模型# GOT-OCR-2.0# OCR模型 2周前02940