新型文本到音频生成模型Tango 2:提高音频生成的质量和与文本的匹配度新加坡科技设计大学和密歇根大学的研究人员推出新型文本到音频生成模型Tango 2,它通过直接偏好优化(Direct Preference Optimization, DPO)来提高音频生成的质量和与文...新技术# Tango 2# 文本到音频生成模型2年前06230
基于指令的高质量图像编辑数据集HQ-Edit加州大学圣克鲁斯分校的研究人员推出高质量数据集HQ-Edit,它专门用于基于指令的图像编辑任务。例如,你有一张图片,想要根据某些具体的指令来修改它,比如改变背景、调整物体的颜色或者添加一些新元素。HQ...新技术# HQ-Edit# 图像编辑数据集2年前08650
Video2Game:自动将现实世界的视频转化为真实且具备交互性的游戏环境来自伊利诺伊大学厄巴纳-香槟分校、上海交通大学和康奈尔大学的研究人员推出Video2Game,它可以将任何真实世界的视频转换成一个实时、互动、真实感强且与浏览器兼容的游戏环境。例如,你有一段拍摄街道的...新技术# Video2Game# 游戏2年前06670
字节跳动推出数据集COCONut,专门针对图像分割任务字节跳动推出数据集COCONut,它是对现有的COCO数据集的现代化升级,专门针对图像分割任务。图像分割是计算机视觉中的一个核心问题,它的目标是将图像中的每个像素正确地分类到不同的实例或类别中,此数据...新技术# COCONut# 图像分割# 字节跳动2年前06700
Scaling (Down) CLIP:从数据、架构和训练策略三个维度对CLIP进行了详细探究来自加州大学圣克鲁斯分校和Google Deepmind的研究人员发布论文探讨如何有效地缩减对比语言-图像预训练(CLIP)模型的规模,以适应计算资源有限的情况。研究团队从数据、架构和训练策略三个维度...新技术# CLIP模型2年前05570
图像分割技术OpenTrans:提高开放词汇表分割(OVS)的效率来自北京交通大学和西蒙菲莎大学的研究人员推出OpenTrans,它旨在提高开放词汇表分割(Open-Vocabulary Segmentation, OVS)的效率。OVS是一种图像分割技术,能够识别...新技术# OpenTrans# 图像分割技术2年前06210
ControlNet++:通过显式优化生成图像与条件控制之间的像素级循环一致性,来改进可控生成过程中佛罗里达大学计算机视觉研究中心和字节跳动的研究人员推出ControlNet++,这是一种新方法,通过显式优化生成图像与条件控制之间的像素级循环一致性,来改进可控生成过程。具体来说,对于给定的条件控制...新技术# controlnet# 可控性# 文生图模型2年前08630
在文生图模型中应用Guidance技术的方法来自阿尔托大学和英伟达的研究人员发布论文探讨了在文生图模型中应用指导(Guidance)技术的方法,作者通过实验表明,限制指导区间的方法在ImageNet-512数据集上将FID(一种衡量图像质量的指...科普# CFG Scale# Guidance2年前08250
新型框架PhysAvatar:将物理模拟和逆向渲染技术相结合,创建逼真的3D虚拟人物来自斯坦福大学、卡内基梅隆大学、谷歌和慕尼黑工业大学的研究人员推出新型框架PhysAvatar,它将物理模拟和逆向渲染技术相结合,能够自动从多视角视频数据中估计人体的形状和外观,以及衣物面料的物理参数...新技术# 3D虚拟人物# PhysAvatar2年前07180
SpaTracker:通过在三维空间中跟踪像素点,能够在各种复杂场景中实现精确的运动估计来自浙江大学、加州大学伯克利分校和蚂蚁集团的研究人员推出SpatialTracker,这是一种能够在三维空间中跟踪任意二维像素点的方法。它使用单目深度估计器将2D像素提升到3D,使用三平面表示法有效表...新技术# SpaTracker# 三维空间2年前06500
一致性模型的强化学习RLCM:提升图像生成的速度和质量来自康奈尔大学的研究团队推出RLCM(Reinforcement Learning for Consistency Models, 一致性模型的强化学习),RLCM提供了一种有效的方法来提升图像生成的...新技术# RLCM# 一致性模型2年前07220
attribute-control:对文生图模型生成的图像中的特定属性进行精细控制来自慕尼黑工业大学的研究人员推出attribute-control,它能够对文本到图像(T2I)模型生成的图像中的特定属性进行精细控制。 项目主页 GitHub Demo 开发团队发现,在常用的基于t...新技术# attribute-control# 文生图模型# 精细控制2年前01,0630