用于3D面部动画的统一模型UniTalker:能够根据输入的音频生成逼真的面部动作商汤科技推出UniTalker,它是一个用于3D面部动画的统一模型,能够根据输入的音频生成逼真的面部动作。这项技术在动画制作、虚拟现实、游戏开发等领域具有广泛的应用前景。UniTalker是一种统一的...新技术# UniTalker1年前07040
基于文本的编辑框架TurboEdit:能够使用极少的几步就能基于文本指令编辑真实图片特拉维夫大学的研究人员推出一种流行的基于文本的编辑框架TurboEdit,它能够使用极少的几步就能基于文本指令编辑真实图片。这种技术利用了所谓的“扩散模型”(diffusion models),这是一...新技术# TurboEdit# 图像编辑# 编辑框架1年前04730
新型图像抠图技术Matting by Generation:能够生成更高分辨率和细节丰富的抠像结果东京大学、合肥大学、Snap Research、阳明大学、香港中文大学、台湾大学和日本国立信息研究所的研究人员推出新型图像抠图技术Matting by Generation,图像抠图是指从一幅图片中精...新技术# Matting by Generation# 抠图1年前07960
虚拟试穿扩散模型CatVTON:允许用户在不实际穿上衣物的情况下,通过照片来预览衣物穿在身上的效果中山大学、Pixocial Technology、鹏程实验室和中科院深圳先进技术研究院的研究人员推出一种简单高效的虚拟试穿扩散模型CatVTON,它通过将任意类别的商店衣物或已穿戴衣物与目标人物图像在...新技术# CatVTON# 虚拟试穿1年前06050
多内容数据集ImagiNet:为了提高合成图像检测的泛化能力而设计保加利亚大特尔诺沃自然科学与数学高中、索非亚大学、保加利亚普罗夫迪夫数学高中和斯坦福大学的研究人员推出多内容数据集ImagiNet,它是为了提高合成图像检测的泛化能力而设计的。合成图像是由计算机生成的...新技术# ImagiNet# 数据集1年前06450
新型AI方法DIVA:使用扩散模型作为 CLIP 视觉辅助中国科学院自动化研究所、中国科学院大学人工智能学院、北京人工智能研究院 和北京交通大学的研究人员推出新型人工智能方法DIVA,它旨在提升一种流行的图像和语言联合预训练模型CLIP的视觉识别能力。CLI...新技术# CLIP 视觉辅助# DIVA1年前07190
用于生成长视频的模型FreeLong:在不增加额外训练成本的情况下,让现有的短视频生成模型处理更长的视频内容悉尼科技大学和浙江大学的研究人员推出一种用于生成长视频的模型FreeLong,它可以在不增加额外训练成本的情况下,让现有的短视频生成模型处理更长的视频内容,同时保持或提升视频的质量。FreeLong是...新技术# FreeLong# 视频生成模型1年前01,1090
新型图像处理技术Diffree:根据文本提示,在图像中添加新的对象厦门大学多媒体可信感知与高效计算教育部重点实验室、上海人工智能实验室OpenGVLab和香港大学推出新型图像处理技术Diffree,它能够根据文本提示,在图像中添加新的对象。这项技术就像是给照片“填空...新技术# Diffree# 图像处理1年前06400
个性化图像生成新方法ViPer: 通过个体偏好学习实现生成模型的视觉个性化瑞士联邦理工学院的研究人员推出一种个性化生成模型输出的方法ViPer,它可以让生成模型(比如用来生成图片的AI)根据个人的喜好来定制生成的内容。这是通过一次性捕捉用户的总体偏好,并在无需详细工程化提示...新技术# ViPer# 个性化图像生成1年前05820
专为人体图像动画设计的大规模高质量数据集HumanVid:结合了精心挑选的真实世界数据和合成数据香港中文大学和上海人工智能实验室的研究人员推出HumanVid,它旨在揭开用于生成逼真人物视频动画的训练数据的神秘面纱。HumanVid是首个为人物图像动画量身定制的大规模、高质量的数据集,它结合了精...新技术# HumanVid1年前08240
文生图风格化工具Artist:无需训练即可实现美学控制的文本驱动风格化香港理工大学的研究人员推出一种无需训练即可实现美学控制的文本驱动风格化方法Artist。简而言之,Artist能够根据文本描述,将一张静态图片转换成具有特定艺术风格的图像,同时保持图片内容的完整性和细...新技术# Artist# 风格化1年前07380
视觉布局CGB-DM:基于Transformer的扩散模型的内容与图形平衡布局生成方法清华大学的研究人员推出基于Transformer的扩散模型的内容与图形平衡布局生成方法CGB-DM,简单来说,CGB-DM是一个智能设计系统,它可以根据文本描述生成既美观又和谐的视觉布局。这就像是给一...新技术# CGB-DM# 视觉布局1年前07970