灵活视觉变换器FiT v2:根据给定的文本描述或已有的图像,生成高质量、高分辨率的新图像自然界的图像具有无穷的分辨率,而现有的扩散模型(如扩散变换器)在处理超出其训练领域的图像分辨率时常常面临挑战。为了解决这一限制,研究人员提出了一种新的视角,将图像概念化为具有动态大小的令牌序列,而不是...新技术# FiT v2# 灵活视觉变换器1年前04360
非自回归扩散框架的动态帧化身DAWN:根据单一的肖像图像和语音音频剪辑生成生动、逼真的头部动画视频中国科学技术大学和科大讯飞研究院的研究人员推出新框架DAWN,它能够根据单一的肖像图像和语音音频剪辑生成生动、逼真的头部动画视频。这项技术的核心在于使用非自回归(NAR)扩散模型来一次性生成动态长度的...新技术# DAWN# 头部动画1年前04570
EvolveDirector 框架:通过使用公开可用的资源来训练一个能够与高级文生图模型相媲美的模型近年来,生成模型在生成高质量图像方面取得了显著进展,但大多数模型依赖于专有的高质量数据集,并且有些模型保留了其参数,只提供可访问的应用程序编程接口(APIs)。这限制了这些模型在下游任务中的应用。为了...新技术# EvolveDirector# 文生图模型1年前04360
角色图像动画化Animate-X:基于潜在扩散模型(LDM)的通用动画框架,让图像上的角色动起来近年来,角色图像动画技术取得了显著进展,即从参考图像和目标姿态序列生成高质量视频。然而,大多数现有方法仅适用于人体,对拟人化角色(如卡通角色、游戏角色等)的泛化效果不佳。这种限制主要归因于对运动的建模...新技术# Animate-X# 角色图像动画化1年前03740
新型框架Cavia:生成具有相机控制功能的多视角视频德克萨斯大学奥斯汀分校、苹果和谷歌的研究人员推出新型框架Cavia,它能够生成具有相机控制功能的多视角视频。简单来说,Cavia可以根据一张图片和一些相机运动的指令,生成一系列从不同角度和时间点观察的...新技术# Cavia1年前04820
LongAlign:改进文生图模型的长文本对齐文生图模型的快速发展使它们能够从给定的文本生成前所未有的结果。然而,随着文本输入变长,现有的编码方法如 CLIP 面临限制,并且将生成的图像与长文本对齐变得具有挑战性。为了解决这些问题,香港大学、新加...新技术# LongAlign# 文生图模型# 长文本对齐1年前07330
零样本视频定制框架DreamVideo-2:根据单一图像和一系列界定框序列生成具有特定主题和运动轨迹的视频复旦大学、阿里巴巴、南洋理工大学和密歇根州立大学的研究人员推出一个零样本视频定制框架DreamVideo-2,能够根据单一图像和一系列界定框(bounding box)序列生成具有特定主题和运动轨迹的...新技术# DreamVideo-2# 视频定制1年前06080
TransAgent 框架:提升视觉-语言基础模型(比如CLIP)在新领域中的泛化能力中国科学院深圳先进技术研究院、中国科学院大学、上海人工智能实验室和上海交通大学的研究人员推出一个通用且简洁的 TransAgent 框架,它的目标是提升视觉-语言基础模型(比如CLIP)在新领域中的泛...新技术# CLIP模型# TransAgent 框架1年前04770
条件对比对齐CCA:提升自回归(AR)视觉生成模型的样本质量无分类器引导(CFG)是提高视觉生成模型样本质量的关键技术。然而,在自回归(AR)多模态生成中,CFG 在语言和视觉内容之间引入了设计不一致性,这与统一不同模态的视觉 AR 设计理念相矛盾。受语言模型...新技术# CCA# 条件对比对齐# 视觉生成模型1年前05850
用于生成同步语音体态手势视频的框架 TANGO:把新的语音和已有的视频动作结合起来,生成高保真的、与语音同步的身体手势视频东京大学和CyberAgent 人工智能实验室的研究人员推出了一个用于生成同步语音体态手势视频的框架 TANGO,它可以从一个几分钟长的参考视频(里面有一个说话者的身体动作)和目标语音音频出发,生...新技术# TANGO# 同步语音体态手势1年前04030
Fluid: 基于连续令牌和随机顺序生成的文生图模型在视觉领域,自回归模型的扩展并没有像在大语言模型中那样取得显著的成功。为了探索这一问题,Google DeepMind 和麻省理工学院的研究人员进行了一项研究,重点探讨了两个关键因素:模型是使用离散还...新技术# Fluid:# 文生图模型1年前04580
图上下文感知扩散模型InstructG2I:根据多模态属性图(MMAGs)生成图像多模态属性图(MMAGs)作为一种强大的数据结构,能够以图的形式表示实体之间的关系,节点中包含图像和文本信息。尽管 MMAGs 在图像生成中具有多功能性,但它们受到的关注相对较少。这是因为 MMAGs...新技术# InstructG2I# 多模态属性图1年前06000