新的4位量化方法SVDQuant:通过量化权重和激活值为4位来加速模型的推理过程,同时保持图像质量扩散模型因其在生成高保真图像方面的卓越能力而备受关注。然而,这些模型在内存和计算方面的要求非常高,这限制了它们在消费级设备和需要低延迟的应用中的部署。为了解决这些问题,研究人员提出了多种技术,包括后训...新技术# SVDQuant# 量化方法11个月前07070
ReCapture:从单个用户视频生成具有新颖摄像机轨迹的新视频最近的视频建模技术取得了显著进展,使得在生成的视频中可以控制摄像机轨迹。然而,这些方法通常不能直接应用于用户提供的视频,因为这些视频不是由视频模型生成的。为了解决这一问题,谷歌和新加坡国立大学的研究人...新技术# ReCapture# 摄像机轨迹1年前03790
专门为I2V模型量身定制的大规模数据集TIP-I2V:包含了超过170万独特的用户提供的文本和图像提示AI驱动的视频生成领域正在迅速发展,图像到视频(I2V)模型因其视觉一致性和增强的可控性而处于前沿。然而,一个显著的差距一直存在:缺乏专门的数据集来理解图像到视频提示的独特需求。为了填补这一空白,悉尼...新技术# TIP-I2V# 图生视频模型1年前03260
基于注意力的运动扩散模型MotionCLR:无需额外的训练实现人体动作生成人类运动生成的交互式编辑是一个重要的研究领域,特别是在动画、游戏和虚拟现实等应用中。然而,现有的运动扩散模型存在两个主要问题: 缺乏对词级文本-运动对应关系的显式建模:这限制了模型在细粒度编辑方面的能...新技术# MotionCLR# 人体动作生成1年前03360
GenXD:能够从任意数量的条件图像生成高质量的3D和4D场景近年来,2D视觉生成取得了显著成功,但在3D和4D生成方面,由于缺乏大规模数据和有效的模型设计,实际应用仍然具有挑战性。新加坡国立大学和微软的研究人员推出了一个名为GenXD的模型,它能够从任意数量的...新技术# 3D# GenXD1年前05170
3D纹理生成框架MVPaint:根据文本指令自动生成高分辨率、无缝的3D纹理腾讯PCG、上海人工智能实验室、南洋理工大学S-Lab和清华大学的研究人员推出3D纹理生成框架MVPaint,它能够根据文本指令自动生成高分辨率、无缝的3D纹理。MVPaint通过同步多视图扩散模型来...新技术# 3D纹理生成# MVPaint1年前04270
AutoVFX:基于自然语言指令的自动视觉效果生成现代视觉效果(VFX)软件使熟练的艺术家能够创造出几乎任何图像,但创作过程仍然费力、复杂,并且对普通用户来说基本上是不可访问的。为了简化这一过程,伊利诺伊大学厄巴纳-香槟分校的研究人员提出了AutoV...新技术# AutoVFX1年前05620
苹果推出基于最优传输理论的通用框架ACT:用于控制大型生成模型的生成过程大型生成模型(如大语言模型LLMs和文本到图像扩散模型T2Is)的能力不断增强,但其日益广泛的部署也引发了对可靠性和安全性的担忧。为了解决这些问题,研究人员提出了通过引导模型激活来控制模型生成的方法...新技术# ACT# 大语言模型# 文生图模型1年前04990
Meta推出创新方案AdaCache(自适应缓存):不进行额外训练的情况下加速视频生成视频生成是AI研究的一个热点领域,特别是在生成时间上一致、高保真的视频方面。这一领域涉及创建在帧之间保持视觉连贯性并在时间上保留细节的视频序列。近年来,机器学习模型,尤其是扩散变换器(DiTs),已成...新技术# AdaCache# Meta AI# 自适应缓存1年前03890
字节跳动推出人像动画技术X-Portrait 2:创建富有表现力和逼真的角色动画和视频素材人像动画技术提供了一种超低成本且高效的方式,用于创建富有表现力和逼真的角色动画和视频素材。用户只需提供一个静态人像图像和一个驱动表演视频,模型就可以使用这些输入生成视频,通过将驱动表情转移到人像中的主...新技术# X-Portrait 2# 人像动画# 字节跳动1年前03830
基于扩散模型的面部匿名化技术:匿名化后的面部与原始照片无缝融合,使其非常适合各种现实世界应用特伦托大学、奥卢大学和新加坡国立大学的研究人员推出一种基于扩散模型的面部匿名化技术,旨在简化面部匿名化流程,同时保留原始图像中的面部表情、头部姿势、眼神方向和背景元素等关键细节。这种方法有效地掩盖了身...新技术# 面部匿名化技术1年前03240
新型视觉生成模型RAR:在通过自回归建模提高图像生成任务的性能,同时保持与语言模型框架的完全兼容性字节跳动推出一种新型视觉生成模型——随机自回归视觉生成(Randomized AutoRegressive Visual Generation,简称RAR)。该模型旨在通过自回归建模提高图像生成任务的...新技术# RAR模型# 随机自回归视觉生成1年前03240