去噪方法GeneOH Diffusion:解决手-物体交互(HOI)去噪的问题来自清华大学、上海人工智能实验室、上海启智研究院的研究人员推出GeneOH Diffusion,它旨在解决手-物体交互(HOI)去噪的问题。在手-物体交互中,我们经常需要准确地追踪手部动作,尤其是在游...新技术# GeneOH Diffusion2年前07330
高质量人类动作视频生成框架MimicMotion:依据任意运动指令生成高质感、任意长度的视频内容腾讯和上海交通大学的研究人员推出高质量人类动作视频生成框架MimicMotion,依据任意运动指令生成高质感、任意长度的视频内容。简单来说,MimicMotion是一个可以制作出逼真人类动作视频的智能...新技术# MimicMotion# 视频生成1年前07310
字节跳动推出新型视频生成技术CamTrol:为现有的视频扩散模型增添摄像机运动操控功能中国科学技术大学和字节跳动的研究人员推出新型视频生成技术CamTrol,这是一种无需训练的、强大的解决方案,可以为现有的视频扩散模型增添摄像机运动操控功能。简单来说,就是可以在不经过额外训练的情况下...新技术# CamTrol# 字节跳动# 视频生成1年前07310
虚拟服装试穿技术IDM-VTON:根据一个人的图片和一件衣服的图片,生成这个人穿上这件衣服的图像来自韩国科学技术院和OMNIOUS.AI的研究人员推出虚拟服装试穿技术IDM-VTON,该技术能够根据分别描绘人物和服装的图像对,渲染出人物穿着精选服装的视觉效果。虚拟试穿是一种计算机视觉技术,它可以...新技术# IDM-VTON# 虚拟服装试穿# 虚拟试穿2年前07310
新型实时一步潜在扩散模型SDXS:在图像生成任务中显著提高效率,同时保持图像质量小米推出新型实时一步潜在扩散模型SDXS,它能够在图像生成任务中显著提高效率,同时保持图像质量。SDXS模型通过模型小型化和减少采样步骤的双重方法,显著降低了模型的延迟,使其能够在低功耗设备上实时生成...新技术# SDXS# 一步潜在扩散模型11个月前07310
无需训练的概率并行解码算法SJD:用于加速自动回归文本到图像的生成模型香港大学、华为诺亚方舟实验室、香港中文大学、清华大学、上海交通大学和无问芯穹的研究人员推出一种无需训练的概率并行解码算法SJD(猜测性雅可比解码),用于加速自动回归文本到图像的生成模型。自动回归模型在...新技术# SJD# 解码算法1年前07300
Follow-Your系列新框架Follow-Your-Pose v2:用于于角色图像动画的框架,可以根据一系列的动作信号(比如视频、深度图或姿势序列)生成动画视频来自腾讯混元团队、中山大学、香港科技大学的研究人员推出Follow-Your系列新框架Follow-Your-Pose v2,这是去年发布的Follow-Your-Pose升级版,这是一个用于于角色图...新技术# Follow-Your-Pose v2# 动画视频2年前07300
全新文生图框架RealCompo:结合SD1.5模型与GLIGEN模型的优势来提高生成图像的质量RealCompo是一个全新的文生图框架,它旨在解决当前文生图模型在处理多对象组合生成时遇到的困难,通过动态平衡真实性和组合性来提高生成图像的质量。 GitHub 论文 RealCompo利用了文本到...新技术# GLIGEN模型# RealCompo# 文生图框架2年前07300
新型视频生成模型HPDM:通过分层处理和上下文融合技术,生成高分辨率视频Snap、阿卜杜拉国王科技大学和特伦托大学的研究人员推出新型视频生成模型Hierarchical Patch Diffusion Models(HPDM,分层补丁扩散模型),这个模型专门设计用于高分辨...新技术# HPDM# 分层补丁扩散模型# 视频生成1年前07290
CAD-MLLM:实现一个统一的计算机辅助设计(CAD)模型生成系统上海科技大学、忆生科技、深度求索(DeepSeek-AI)和香港大学的研究人员推出一个名为“CAD-MLLM”的系统,它旨在实现一个统一的计算机辅助设计(CAD)模型生成系统。该系统能够根据用户的多种...新技术# CAD# CAD-MLLM1年前07250
IDEA研究院推出先进开集目标检测模型系列Grounding DINO 1.5:推动开放集对象检测技术的边界IDEA研究院(粤港澳大湾区数字经济研究院)推出先进模型系列Grounding DINO 1.5,旨在推动开放集对象检测技术的边界。开放集对象检测是一种计算机视觉任务,它要求模型能够识别图像中的对象...新技术# Grounding DINO 1.5# 开集目标检测模型2年前07240
腾讯混元团队推出支持中英双语提示词的文生图模型Hunyuan-DiT:能够根据上下文与用户进行多轮多模态对话,生成并优化图像腾讯混元团队推出支持中英双语提示词的文生图模型Hunyuan-DiT,它特别擅长理解中文和英文的文本提示,并据此生成图像,Hunyuan-DiT能够根据上下文与用户进行多轮多模态对话,生成并优化图像...新技术# Hunyuan-DiT# 提示词# 文生图模型2年前07240