新型视觉模型EfficientViT:专门用于高分辨率的密集预测任务来自MIT、浙江大学、清华大学、MIT-IBM Watson AI实验室的研究人员推出新型视觉模型EfficientViT,它专门用于高分辨率的密集预测任务。这类任务在计算机视觉领域非常重要,应用范围...新技术# EfficientViT# 视觉模型11个月前04880
视觉模型PLLaVA:能够理解视频中的内容,包括动作、场景、人物穿着等,并能够生成详细描述这些内容的字幕来自新加坡国立大学、纽约大学和字节跳动的研究人员推出用于视频密集字幕生成的先进模型PLLaVA(Pooling LLaVA),此模型的主要功能是能够理解视频中的内容,包括动作、场景、人物穿着等,并能够...新技术# PLLaVA# 视觉模型11个月前03610
基于SAM的新型视觉模型Open-Vocabulary SAM:交互式的图像分割和识别来自南洋理工大学、上海AI实验室的研究人员推出了一款基于SAM的新型视觉模型Open-Vocabulary SAM,它结合了Segment Anything Model(SAM)和CLIP模型的优势...新技术# Open-Vocabulary SAM# SAM# 图像分割1年前04570