视觉模型

排序

Meta AI 正式推出 DINOv3 —— 一项在计算机视觉领域具有里程碑意义的自监督学习模型。它不仅刷新了密集预测任务的性能上限，更首次证明：一个通用、冻结的视觉骨干，可以在无需微调的情况下，在多...

8个月前

05760

来自MIT、浙江大学、清华大学、MIT-IBM Watson AI实验室的研究人员推出新型视觉模型EfficientViT，它专门用于高分辨率的密集预测任务。这类任务在计算机视觉领域非常重要，应用范围...

2年前

06650

来自新加坡国立大学、纽约大学和字节跳动的研究人员推出用于视频密集字幕生成的先进模型PLLaVA（Pooling LLaVA），此模型的主要功能是能够理解视频中的内容，包括动作、场景、人物穿着等，并能够...

2年前

05080

来自南洋理工大学、上海AI实验室的研究人员推出了一款基于SAM的新型视觉模型Open-Vocabulary SAM，它结合了Segment Anything Model（SAM）和CLIP模型的优势...

2年前

08720