SpaTracker:通过在三维空间中跟踪像素点,能够在各种复杂场景中实现精确的运动估计来自浙江大学、加州大学伯克利分校和蚂蚁集团的研究人员推出SpatialTracker,这是一种能够在三维空间中跟踪任意二维像素点的方法。它使用单目深度估计器将2D像素提升到3D,使用三平面表示法有效表...新技术# SpaTracker# 三维空间2年前06460
多内容数据集ImagiNet:为了提高合成图像检测的泛化能力而设计保加利亚大特尔诺沃自然科学与数学高中、索非亚大学、保加利亚普罗夫迪夫数学高中和斯坦福大学的研究人员推出多内容数据集ImagiNet,它是为了提高合成图像检测的泛化能力而设计的。合成图像是由计算机生成的...新技术# ImagiNet# 数据集1年前06440
文本到3D生成模型VP3D:通过利用2D视觉提示来增强3D模型的视觉真实感来自HiDream.ai和复旦大学的研究人员推出新型文本到3D生成模型VP3D,它通过利用2D视觉提示来增强3D模型的视觉真实感。在以往的研究中,虽然已经有了一些能够从文本生成3D模型的技术,但这些技...新技术# 3D生成模型# VP3D2年前06440
新型视觉模型EfficientViT:专门用于高分辨率的密集预测任务来自MIT、浙江大学、清华大学、MIT-IBM Watson AI实验室的研究人员推出新型视觉模型EfficientViT,它专门用于高分辨率的密集预测任务。这类任务在计算机视觉领域非常重要,应用范围...新技术# EfficientViT# 视觉模型2年前06420
Follow-Your-Click:通过用户简单的点击和简短的动作提示来实现图像的局部动画化来自香港科大、腾讯浑源和清华大学的团队推出新颖框架Follow-Your-Click,它能够通过用户简单的点击和简短的动作提示来实现图像的局部动画化。 项目主页 GitHub 想象一下,你有一张静态图...新技术# Follow-Your-Click# 局部动画化2年前06420
MegaFusion:将现有的扩散模型扩展到更高分辨率的图像生成,而无需额外的调整或适应上海交通大学、上海人工智能实验室和大连理工大学的研究人员推出MegaFusion,它能够将现有的扩散模型(diffusion models)扩展到更高分辨率的图像生成,而无需额外的调整或适应。具体而言...新技术# MegaFusion1年前06400
Anthropic旗下Claude 升级:整合 Google Workspace 和全新研究功能AI 聊天机器人市场竞争激烈,Anthropic 的 Claude 正在通过一系列新功能脱颖而出。周二,Anthropic 宣布其 AI 聊天机器人 Claude 已整合 Google Workspa...早报# Anthropic# Claude# Google Workspace8个月前06390
专注于二次元角色的动画方法MikuDance:将二次元角色根据 Open Pose 姿势生成对应动画武汉大学、阶跃星辰和字节跳动的研究人员推出MikuDance,它是一个基于扩散的动画制作流程,用于为风格化的角色艺术作品添加混合运动动力学,使其动起来。MikuDance的核心在于它能够处理复杂的角色...新技术# MikuDance# 二次元1年前06390
新型图像处理技术Diffree:根据文本提示,在图像中添加新的对象厦门大学多媒体可信感知与高效计算教育部重点实验室、上海人工智能实验室OpenGVLab和香港大学推出新型图像处理技术Diffree,它能够根据文本提示,在图像中添加新的对象。这项技术就像是给照片“填空...新技术# Diffree# 图像处理1年前06390
开源图像标注模型JoyTag:没有任何过滤和审查JoyTag是一个机器学习研究者推出的开源图像标注模型,该模型是在Danbooru 2021 + 手动标记的图像数据集上训练的,对训练的内容和标签没有任何过滤和审查,适用于从手绘到摄影的各种图像,在处...新技术# JoyTag# 图像标注模型# 开源2年前06390
新型文本到图像生成框架InstantStyle:在生成图像时保持一致的风格InstantX团队推出新型文本到图像生成框架InstantStyle,它专注于在生成图像时保持一致的风格。它通过简化风格迁移的过程,使得普通用户和专业人士都能够轻松地创造具有一致风格的图像。 项目主...新技术# InstantStyle# 风格1年前06380
参照音频-视觉分割RefAVS:依据融合了多模态提示(包括音频和视觉描述)的自然语言表达,对视觉场景中的目标物进行分割中国人民大学、北京邮电大学和上海人工智能实验室的研究人员推出RefAVS(参照音频-视觉分割),依据融合了多模态提示(包括音频和视觉描述)的自然语言表达,对视觉场景中的目标物进行分割。研究团队还创建了...新技术# RefAVS# 参照音频-视觉分割1年前06360