一步式文本到图像扩散模型SwiftBrush v2:通过优化训练方法和引入新的损失函数,来提高图像质量和文本图像对齐度越南VinAI 研究和胡志明邮电技术学院的研究人员推出SwiftBrush v2,这是一个先进的文本到图像扩散模型,它通过优化训练方法和引入新的损失函数,比如“clamped CLIP loss”,来...新技术# SwiftBrush v22年前04710
Flow-GRPO:将在线强化学习与流匹配模型相结合,用于提升文生图模型生成任务的性能香港中文大学MM实验室、清华大学、快手科技、南京大学和上海人工智能实验室推出新方法Flow-GRPO,它将在线强化学习(Reinforcement Learning, RL)与流匹配(Flow Mat...新技术# Flow-GRPO# 强化学习# 流匹配10个月前04700
Jasper Research推出新型图像到图像转换方法LBM:可以实现对象移除、调整光照等效果Jasper Research推出一种新型图像到图像转换方法Latent Bridge Matching (LBM) ,这种方法通过在潜在空间中进行“桥匹配”(Bridge Matching)来实现快...新技术# Jasper Research# LBM# 图像转换1年前04700
新型视频生成框架CustomCrafter:根据文本提示和主题参考图像生成高质量视频浙江大学、腾讯人工智能实验室和腾讯 PCG ARC 实验室的研究人员推出新型视频生成框架CustomCrafter,它可以根据文本提示和主题参考图像生成高质量视频。这项技术的目标是让用户能够自定义视频...新技术# CustomCrafter# 视频生成2年前04690
无需预先训练框架MotionClone:通过复制参考视频中的动作来指挥文本导向的视频生成中国科学技术大学、上海交通大学、香港中文大学和上海人工智能实验室的研究人员推出无需预先训练框架MotionClone,它能够实现一种无需训练的运动克隆,用于可控的视频生成。简单来说,这项技术可以让一个...新技术# MotionClone# 视频生成2年前04690
苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro,它用于提高单目深度估计的准确性和细节表现。单目深度估计是指仅使用一个摄像头拍摄的单张图片来预测场景中每个像素的深度信息。例如,你用手...新技术# Depth Pro# 苹果1年前04670
韩国科学技术研究院推出专门针对文生图模型的新型数据投毒攻击方法Silent Branding Attack韩国科学技术研究院和DeepAuto.ai的研究人员推出一种新型数据投毒攻击方法Silent Branding Attack ,专门针对文生图模型。该方法能够在文生图模型中隐秘地嵌入特定品牌标志或符号...新技术# Silent Branding Attack# 文生图模型# 韩国科学技术研究院1年前04660
ObjectMate:能够在无需微调的情况下,实现对象插入和主题驱动的图像生成对象插入和主体驱动生成是计算机视觉中的两个重要任务,旨在将给定的对象合成到由图像或文本指定的场景中。具体来说: 对象插入:将一个对象无缝地插入到目标场景中,要求合成后的图像在姿态、光照等方面看起来逼真...新技术# ObjectMate# 图像编辑1年前04660
基于参考的线条艺术视频上色的视频扩散框架LVCD:用于根据参考图像和线稿序列为动画视频着色香港城市大学和腾讯的研究人员推出基于参考的线条艺术视频上色的视频扩散框架LVCD,用于根据参考图像和线稿序列为动画视频着色。这种方法能够生成长时间一致的、高质量的动画视频。LVCD在保持长时间一致性和...新技术# LVCD# 视频上色2年前04660
音乐生成系统Seed-Music:能够创作出高质量的音乐,并且可以根据用户的细致要求来调整音乐的风格和内容字节跳动旗下豆包团队推出音乐生成系统Seed-Music,能够创作出高质量的音乐,并且可以根据用户的细致要求来调整音乐的风格和内容。Seed-Music结合了自回归语言建模和扩散方法,支持两种关键的音...新技术# Seed-Music# 音乐生成2年前04650
结合了大语言模型与文生图模型的新框架SGEdit:用于基于场景图的精确和灵活的图像编辑场景图提供了一种结构化、层次化的图像表示方式,其中节点和边分别代表图像中的对象及其相互关系。这种方式不仅能够帮助用户更直观地理解图像内容,还能作为图像编辑的有效接口,极大提升了编辑工作的准确性和灵活性...新技术# SGEdit# 图像编辑# 大语言模型1年前04640
Fluid: 基于连续令牌和随机顺序生成的文生图模型在视觉领域,自回归模型的扩展并没有像在大语言模型中那样取得显著的成功。为了探索这一问题,Google DeepMind 和麻省理工学院的研究人员进行了一项研究,重点探讨了两个关键因素:模型是使用离散还...新技术# Fluid:# 文生图模型1年前04640