人类偏好优化技术NCPPO:改善文生图模型,使其生成的图像更加符合人类的偏好俄罗斯国家研究型高等经济大学的研究人员推出新方法NCPPO,它用于改善文本到图像的扩散模型(Diffusion Models),使其生成的图像更加符合人类的偏好。扩散模型是一种生成模型,它们通过逐步去...新技术# NCPPO# 人类偏好# 文生图模型2年前05980
AniClipart:根据文本提示将静态的剪贴画转换成动画香港城市大学和莫纳什大学的研究人员推出AniClipart,它能够根据文本提示将静态的剪贴画(clipart)转换成动画。剪贴画是一种预先制作的图形艺术形式,通常用于快速增强视觉内容。传统的剪贴画动画...新技术# AniClipart2年前05980
LoRA:为解决大语言模型微调而开发微软的研究人员于2021年推出LoRA(Low-Rank Adaptation of Large Language Models,大语言模型的低阶适应),这是为解决大语言模型微调而开发的一项技术,用于...新技术# Lora# 大语言模型# 微软2年前05980
小鹏科技推出通用视频编辑框架AiAS:将任何物体无缝插入到动态视频小鹏科技推出通用框架“Anything in Any Scene(AiAS)”,用于创建逼真视频模拟的方法,可以将任何物体无缝插入到现有的动态视频中。这种方法特别强调物理真实性,包括几何真实性、光照真...新技术# AiAS# 小鹏科技# 视频编辑2年前05980
图像修补任务Reflecting Reality:专门用于创建逼真的镜面反射印度理工学院班加罗尔分校视觉与人工智能实验室、三星印度研发中心和牛津大学视觉几何组的研究人员推出Reflecting Reality,它专门用于创建逼真的镜面反射。简单来说,可以处理给定的图片,自动在...新技术# Reflecting Reality# 镜面反射1年前05960
GenXD:能够从任意数量的条件图像生成高质量的3D和4D场景近年来,2D视觉生成取得了显著成功,但在3D和4D生成方面,由于缺乏大规模数据和有效的模型设计,实际应用仍然具有挑战性。新加坡国立大学和微软的研究人员推出了一个名为GenXD的模型,它能够从任意数量的...新技术# 3D# GenXD1年前05950
新型蒸馏技术iCD:提升文本引导的图像编辑任务中的图像生成和编辑能力俄罗斯Yandex Research和高等经济大学的研究人员推出新型蒸馏技术Invertible Consistency Distillation(iCD),它用于提升文本引导的图像编辑任务中的图像生...新技术# iCD# 蒸馏技术2年前05950
大型重建模型Real3D:利用单视图真实世界图像进行3D重建德克萨斯大学奥斯汀分校的研究人员推出Real3D,它是首个能够使用单视图真实世界图像进行训练的大型重建模型(Large Reconstruction Model,简称LRM)。Real3D通过自训练框...新技术# 3D模型# Real3D2年前05950
高效稀疏注意力机制 SpargeAttn:加速大模型的推理过程,同时不损失模型性能清华大学和加州大学伯克利分校的研究人员推出高效稀疏注意力机制 SpargeAttn,旨在加速大模型的推理过程,同时不损失模型性能。注意力机制在现代深度学习模型中扮演着重要角色,但由于其计算复杂度与序列...新技术# SpargeAttn# 加州大学伯克利分校# 清华大学1年前05920
创新系统SEE-2-SOUND:为静态图片或动态视频生成与之匹配的立体声效果,增强观众的沉浸感和体验多伦多大学、Temerty 人工智能研究与医学教育中心和Sunnybrook 研究所的研究人员推出创新系统SEE-2-SOUND,它能够将视觉内容(如图片或视频)转换成具有空间感的音频输出。简单来说...新技术# SEE-2-SOUND# 立体声2年前05900
DiLightNet:用于文生图模型图像生成过程中对照明效果精细控制来自浙江大学、微软亚洲研究院、威廉玛丽学院和清华大学的研究人员提出一种新方法DiLightNet,它用于在基于文本提示的扩散模型图像生成过程中实现精细的照明控制。 论文地址 扩散模型是一种能够根据文本...新技术# DiLightNet# 照明效果2年前05900
个性化图像生成新方法ViPer: 通过个体偏好学习实现生成模型的视觉个性化瑞士联邦理工学院的研究人员推出一种个性化生成模型输出的方法ViPer,它可以让生成模型(比如用来生成图片的AI)根据个人的喜好来定制生成的内容。这是通过一次性捕捉用户的总体偏好,并在无需详细工程化提示...新技术# ViPer# 个性化图像生成2年前05890