Follow-Your-Click:通过用户简单的点击和简短的动作提示来实现图像的局部动画化来自香港科大、腾讯浑源和清华大学的团队推出新颖框架Follow-Your-Click,它能够通过用户简单的点击和简短的动作提示来实现图像的局部动画化。 项目主页 GitHub 想象一下,你有一张静态图...新技术# Follow-Your-Click# 局部动画化2年前06550
视觉风格提示(Visual Style Prompting):不需要对模型进行微调的情况下,通过参考图像来生成具有特定风格的图像来自韩国延世大学和NAVER AI 实验室的研究团队推出“视觉风格提示(Visual Style Prompting)”,它能够在不需要对预训练模型进行微调的情况下,通过参考图像来生成具有特定风格的图...新技术# Visual Style Prompting# 视觉风格提示2年前06550
谷歌推出创新框架VLOGGER:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频谷歌推出创新框架VLOGGER,它能够根据一段音频和一张人物的单张照片生成这个人说话和动作的逼真视频。想象一下,你只需提供一张你的照片和你的语音记录,VLOGGER就能制作出一个视频,在视频中你可以看...新技术# VLOGGER# 谷歌2年前05680
DragAnything:视频生成中任意对象的运动控制来自快手、浙江大学和新加坡国立大学的研究团队推出DragAnything,它是一种用于视频生成和控制的方法,它利用实体表示法来实现对视频生成中任意对象的运动控制。 项目主页 GitHub 论文 例如...新技术# DragAnything# 视频生成# 运动控制2年前06600
FaceChain-SuDe:提高个性化图像生成的属性相关性来自北京大学、阿里巴巴、清华大学和鹏程实验室的研究团队推出FaceChain-SuDe,这是一种用于个性化文本到图像生成的方法,旨在提高个性化图像生成(subject-driven generatio...新技术# FaceChain-SuDe# 个性化图像生成2年前05660
新型3D生成模型V3D:利用视频扩散模型的能力来创建高质量的三维对象和场景来自清华和生数科技的研究推出新型3D生成模型V3D,它利用视频扩散模型的能力来创建高质量的三维对象和场景。V3D的核心思想是将连续的多视角图像视为视频,从而利用预训练的视频扩散模型来生成围绕物体的36...新技术# 3D生成模型# V3D2年前05590
谷歌发布“多步一致性模型”(Multistep Consistency Models)谷歌发布新型生成模型“多步一致性模型”(Multistep Consistency Models),它在图像、视频和音频生成领域具有潜在的应用价值。这个模型是介于传统的“一致性模型”(Consiste...新技术# 多步一致性模型# 谷歌2年前05620
VideoElevator:利用文生图模型来增强文生视频的质量和细节来自哈尔滨大学和清华大学的研究团队推出VideoElevator,利用文生图模型来增强文生视频的质量和细节,这个过程是无需训练的,可以直接插入现有的模型中使用,还能利用文生图模型来实现风格迁移,非常方...新技术# VideoElevator# 文生图模型# 文生视频2年前06370
大语言模型适配器ELLA:提升了文生图模型处理复杂描述的能力腾讯推出大语言模型适配器(LLM Adapter)ELLA,无需 U-Net 或大语言模型训练,就可通过 ELLA ,为文生图模型增强文本对齐,解决大多数模型受限于 CLIP 本身对密集提示词的理解能...新技术# DPG-Bench# ELLA# TSC2年前09600
图像编辑框架StableDrag:通过点(handle points)来精确控制图像编辑南京大学软件新技术国家重点实验室和腾讯公司研究团队推出图像编辑框架StableDrag,它专注于通过点(handle points)来精确控制图像编辑。 项目主页 论文地址 StableDrag提供了...新技术# StableDrag# 图像编辑2年前05670
运动引导扩散模型Pix2Gif:用于图像到GIF(视频)的生成微软印度研究院和微软雷蒙德研究院的研究人员推出运动引导扩散模型Pix2Gif,该模型可用于图像到GIF(视频)的生成。 项目主页 GitHub Demo 他们采取了与众不同的方法,将任务定位为受文本和...新技术# GIF# Pix2Gif2年前06990
ViewDiff:从文本或图像生成多视图图像来自Meta和慕尼黑工业大学的研究人员推出ViewDiff,它能够根据文本描述或已有的图像输入,生成与3D对象一致的高质量图像。 项目主页 GitHub 想象一下,你只需要告诉计算机你想要的3D对象是...新技术# 3D模型# ViewDiff# 多视角2年前06800