无需训练的图像编辑技术DiffUHaul:专门用于在图像中无缝移动物体英伟达研究中心、耶路撒冷希伯来大学、特拉维夫大学和赖希曼大学的研究人员推出一种无需训练的图像编辑技术DiffUHaul,专门用于在图像中无缝移动物体。例如,你有一张图片,里面有一只猫和一块岩石,你想要...新技术# DiffUHaul# 图像编辑1年前06270
腾讯推出创新框架AniPortrait:根据音频和一张参考肖像图片生成高质量的动画腾讯推出创新框架AniPortrait,它可以根据音频和一张参考肖像图片生成高质量的动画。这个系统可以捕捉到音频中的微妙表情和唇部动作,并将这些动作应用到一个静态的肖像图片上,从而创建出看起来像是在说...新技术# AniPortrait2年前06260
图生图新技术pOps:将图像和文本转换为可以相互理解的格式,更好的生成图像特拉维夫大学和西蒙菲莎大学的研究人员推出图生图新技术pOps(Photo-Inspired Diffusion Operators),它是一种用于生成视觉内容的先进方法。例如,你想要生成一张“在海滩上...新技术# pOps# 图生图2年前06230
新型文本到音频生成模型Tango 2:提高音频生成的质量和与文本的匹配度新加坡科技设计大学和密歇根大学的研究人员推出新型文本到音频生成模型Tango 2,它通过直接偏好优化(Direct Preference Optimization, DPO)来提高音频生成的质量和与文...新技术# Tango 2# 文本到音频生成模型2年前06220
创新电影制作框架DreamCinema:利用AI技术简化了电影创作过程,使得个人也能轻松成为电影制作人清华大学推出创新电影制作框架DreamCinema,它利用AI技术简化了电影创作过程,使得个人也能轻松成为电影制作人。在这个数字化媒体蓬勃发展的时代,人们对于创造个性化、高质量的电影级视频有着广泛需求...新技术# DreamCinema# 电影1年前06210
新型框架CSD:理解和从图像中提取风格描述符,可以实现对图像风格的检索、归因和匹配来自纽约大学、埃利斯研究所、马里兰大学帕克分校的研究人员推出新型框架CSD,旨在理解和从图像中提取风格描述符,可以实现对图像风格的检索、归因和匹配,特别适用于Stable Diffusion模型。 G...新技术# CSD# 图像风格2年前06210
基于提示、针对文生图模型的新型剪枝方法APTP:减少文生图模型在计算资源受限的环境中部署时的计算负担,同时保持模型性能马里兰大学和佛罗里达州立大学推出一种针对文生图模型的新型剪枝方法APTP(Adaptive Prompt-Tailored Pruning,自适应提示定制剪枝),这是一种专门为文生图模型设计的、基于提...新技术# APTP# 剪枝方法# 文生图模型1年前06200
图像编辑技术Prompt-to-Prompt:通过提示词进行局部或全局编辑来自谷歌和特拉维夫大学的团队推出图像编辑技术Prompt-to-Prompt,这是一种直观的从提示到提示的编辑框架,其中编辑操作仅通过文本进行控制。此团队深入分析了文本条件模型,并观察到交叉注意力层在...新技术# Prompt-to-Prompt# 图像编辑# 提示词2年前06200
基于多模态token的新型基础模型MIO:能够以端到端、自回归的方式理解和生成语音、文本、图像和视频北京航空航天大学、01.AI、香港理工大学、AIWaves、阿尔伯塔大学、滑铁卢大学、曼彻斯特大学、中国科学院自动化研究所、北京大学和香港科技大学的研究人员推出一个基于多模态token的新型基础模型M...新技术# MIO# 多模态1年前06190
DiT架构的文生视频模型xGen-VideoSyn-1:根据文本描述生成逼真的视频场景Salesforce推出新的文生视频模型xGen-VideoSyn-1,这个模型能够根据文本描述生成逼真的视频场景,它的设计灵感来源于OpenAI的Sora模型,并在此基础上进行了改进和创新。例如,你...新技术# xGen-VideoSyn# 文生视频模型1年前06190
高度一致且可控制运动的图像动画生成方法Cinemo:将一张静态图片转换成一段视频,并且在转换过程中保持图片原有的细节信息莫纳什大学、上海人工智能实验室和南京邮电大学的研究人员推出Cinemo,它是一种用于图像动画化(也称为图像到视频生成,I2V)的新型方法。简单来说,Cinemo能够将一张静态图片转换成一段视频,并且在...新技术# Cinemo# 图像动画1年前06190
基于端到端训练的风格迁移模型CSGO:根据用户提供的文本描述和风格图像,生成具有特定风格的内容图像InstantX Team、南京理工大学、北京航空航天大学和北京大学的研究人员推出一种基于端到端训练的风格迁移模型CSGO,它是一个用于文本到图像生成的风格迁移模型。简单来说,CSGO能够根据用户提供...新技术# CSGO# 风格迁移模型1年前06180