新型视觉模型EfficientViT:专门用于高分辨率的密集预测任务来自MIT、浙江大学、清华大学、MIT-IBM Watson AI实验室的研究人员推出新型视觉模型EfficientViT,它专门用于高分辨率的密集预测任务。这类任务在计算机视觉领域非常重要,应用范围...新技术# EfficientViT# 视觉模型2年前06440
文本到3D生成模型VP3D:通过利用2D视觉提示来增强3D模型的视觉真实感来自HiDream.ai和复旦大学的研究人员推出新型文本到3D生成模型VP3D,它通过利用2D视觉提示来增强3D模型的视觉真实感。在以往的研究中,虽然已经有了一些能够从文本生成3D模型的技术,但这些技...新技术# 3D生成模型# VP3D2年前06440
视觉风格提示(Visual Style Prompting):不需要对模型进行微调的情况下,通过参考图像来生成具有特定风格的图像来自韩国延世大学和NAVER AI 实验室的研究团队推出“视觉风格提示(Visual Style Prompting)”,它能够在不需要对预训练模型进行微调的情况下,通过参考图像来生成具有特定风格的图...新技术# Visual Style Prompting# 视觉风格提示2年前06410
高效且精确的注意力机制量化方法SageAttention:加速大语言处理、图像生成和视频生成模型清华大学的研究人员推出一种高效且精确的注意力机制量化方法SageAttention,此方法的OPS(每秒操作数)性能分别比FlashAttention2和xformers提高了约2.1倍和2.7倍。S...新技术# SageAttention# 注意力机制1年前06400
新型图像处理技术Diffree:根据文本提示,在图像中添加新的对象厦门大学多媒体可信感知与高效计算教育部重点实验室、上海人工智能实验室OpenGVLab和香港大学推出新型图像处理技术Diffree,它能够根据文本提示,在图像中添加新的对象。这项技术就像是给照片“填空...新技术# Diffree# 图像处理1年前06400
开源图像标注模型JoyTag:没有任何过滤和审查JoyTag是一个机器学习研究者推出的开源图像标注模型,该模型是在Danbooru 2021 + 手动标记的图像数据集上训练的,对训练的内容和标签没有任何过滤和审查,适用于从手绘到摄影的各种图像,在处...新技术# JoyTag# 图像标注模型# 开源2年前06400
新型文本到图像生成框架InstantStyle:在生成图像时保持一致的风格InstantX团队推出新型文本到图像生成框架InstantStyle,它专注于在生成图像时保持一致的风格。它通过简化风格迁移的过程,使得普通用户和专业人士都能够轻松地创造具有一致风格的图像。 项目主...新技术# InstantStyle# 风格1年前06390
3D到3D生成方法ThemeStation:根据少量的示例生成具有一致主题的3D资源来自香港城市大学、上海AI实验室、南洋理工大学的研究团队推出3D到3D生成方法ThemeStation,它是一个能够根据少量的示例(exemplars)生成具有一致主题的3D资源的创新方法。其追求两个...新技术# 3D模型# ThemeStation2年前06370
参照音频-视觉分割RefAVS:依据融合了多模态提示(包括音频和视觉描述)的自然语言表达,对视觉场景中的目标物进行分割中国人民大学、北京邮电大学和上海人工智能实验室的研究人员推出RefAVS(参照音频-视觉分割),依据融合了多模态提示(包括音频和视觉描述)的自然语言表达,对视觉场景中的目标物进行分割。研究团队还创建了...新技术# RefAVS# 参照音频-视觉分割1年前06360
神经网络架构MVDiffusion++:用于从单个或少量图像中重建3D物体来自西蒙弗雷泽大学和Meta Reality Labs的研究人员推出神经网络架构MVDiffusion++,它用于从单个或少量图像中重建3D物体。这个模型能够在没有相机姿态信息的情况下,生成密集且高分...新技术# 3D# MVDiffusion++# 神经网络架构2年前06360
视频对象分割技术SMITE:解决视频内对象的分割问题,特别是在需要任意粒度(即对象可以被分割成不同数量的片段)的情况下视频对象分割是一项具有挑战性的任务,每个像素必须被准确标记,并且这些标签必须在帧之间保持一致。当分割具有任意粒度时,难度会进一步增加,这意味着段的数量可以任意变化,并且掩模仅基于一个或几个样本图像定义...新技术# SMITE# 视频对象分割1年前06350
无需训练的图像编辑技术DiffUHaul:专门用于在图像中无缝移动物体英伟达研究中心、耶路撒冷希伯来大学、特拉维夫大学和赖希曼大学的研究人员推出一种无需训练的图像编辑技术DiffUHaul,专门用于在图像中无缝移动物体。例如,你有一张图片,里面有一只猫和一块岩石,你想要...新技术# DiffUHaul# 图像编辑1年前06350