Motion Prompting框架:通过动轨迹控制视频生成 Google DeepMind、密歇根大学和布朗大学的研究人员推出一个名为“Motion Prompting”的框架,它用于控制视频生成中的动作轨迹。该框架通过使用运动轨迹作为条件信号,来生成具有特定... 新技术# Motion Prompting# 运动轨迹控 3个月前0990
新型框架OmniCreator:能够进行自我监督的统一生成和编辑,涵盖图像和视频 Everlyn AI、香港科技大学、佛罗里达大学和密歇根州立大学的研究人员推出新型框架OmniCreator,它能够进行自我监督的统一生成和编辑,涵盖图像和视频。OmniCreator通过利用原始的文... 新技术# OmniCreator 3个月前01000
新型多镜头视频生成框架VGoT:专门针对多镜头视频生成任务设计 香港科技大学、北京大学、香港大学、新加坡国立大学、中佛罗里达大学和Everlyn Al的研究人员推出新型多镜头视频生成框架VGoT,旨在解决从简短的用户输入脚本生成多镜头、电影风格视频的挑战,通过一个... 新技术# VGoT# 多镜头视频 3个月前01020
新型框架ZipAR:用于加速自回归(AR)视觉生成模型的图像生成过程 浙江大学、上海人工智能实验室和阿德莱德大学的研究人员推出新型框架ZipAR,它用于加速自回归(Auto-Regressive,AR)视觉生成模型的图像生成过程。ZipAR的核心思想是利用图像的空间局部... 新技术# ZipAR# 自回归视觉生成模型 3个月前01140
字节推出新型视觉自回归(VAR)模型Infinity:根据语言指令生成高分辨率、逼真的图像 字节跳动的研究团队提出了一种名为Infinity的新方法,该方法在位级标记预测框架下重新定义了视觉自回归(VAR)模型,能够根据语言指令生成高分辨率、逼真的图像。Infinity通过引入无限词汇标记器... 新技术# Infinity# 视觉自回归模型 3个月前01120
高质量、人工奖励数据集HumanEdit:专为指令引导的图像编辑而设计 天工AI、新加坡国立大学、北京大学和南洋理工大学的研究人员推出高质量、人工奖励数据集HumanEdit,专为指令引导的图像编辑而设计。该数据集通过开放式语言指令实现精确和多样化的图像操作,旨在解决现有... 新技术# HumanEdit 3个月前0990
基于视觉特征的对抗性引导方法NegToMe:利用参考图像或其他批次图像的视觉特征,而非仅依赖文本提示,来更有效地排除不希望的视觉元素 华盛顿大学、澳大利亚国立大学和艾伦人工智能研究所的研究人员提出了一种新的对抗性引导方法——负标记合并(Negative Token Merging, NegToMe)。该方法旨在通过直接利用参考图像或... 新技术# NegToMe# 负标记合并 3个月前01120
实时交互式3D场景生成的创新框架WonderWorld:能够以低延迟的方式指定场景内容和布局,并实时查看创建的场景 MIT和斯坦福的研究人员联合推出了WonderWorld,这是一个用于交互式3D场景生成的创新框架。它使用户能够以低延迟的方式指定场景内容和布局,并实时查看创建的场景。WonderWorld的主要目标... 新技术# 3D场景# WonderWorld 3个月前0980
文本到图像模型的数据归因:识别在生成新图像过程中最具影响力的训练图像 卡内基梅隆大学、Adobe 研究和加州大学伯克利分校的研究人员发布论文,论文的主题是关于文本到图像模型的数据归因(Data Attribution for Text-to-Image Models... 新技术# 文生图模型 3个月前01030
SOLAMI:为3D自主角色提供社交智能,使其能够感知、理解和与人类进行交互。 人类是社会性动物,赋予3D自主角色类似的社会智能,使其能够感知、理解和与人类互动,是一个开放且基础的问题。商汤科技研究院和南洋理工大学的研究人员提出了SOLAMI,这是第一个端到端的社交视觉-语言-动... 新技术# SOLAMI 3个月前01070
SPOTLIGHT:通过扩散模型实现对虚拟对象插入图像时的光影控制 拉瓦尔大学、Depix Technologies和芝加哥丰田技术学院的研究人员推出SPOTLIGHT,它用于通过扩散模型实现对虚拟对象插入图像时的光影控制。这种方法的核心在于,通过指定对象的期望阴影,... 新技术# SPOTLIGHT 3个月前01200
无需额外训练的缓存策略TeaCache:加速视频扩散模型的推理过程,同时保持生成视频的视觉质量 扩散模型(DMs)作为视频生成的基本骨干,因其顺序去噪的性质而面临低推理速度的挑战。尽管先前的方法通过在均匀选择的时间步长上缓存和重用模型输出来加速模型,但这种策略忽略了模型输出在不同时间步长上的差异... 新技术# TeaCache# 缓存策略 2个月前01200