苹果推出开源图像编辑模型MGIE:通过文字提示来编辑任何图像来自苹果的团队推出开源图像编辑模型MGIE(MLLM-Guided Image Editing),它旨在通过使用多模态大语言模型(MLLMs)来提升基于指令的图像编辑能力。简单来说,MGIE可以帮助用...新技术# MGIE# 图像编辑# 苹果2年前05760
谷歌推出首尾帧图生视频新方法Generative Inbetweening:在两个关键帧之间产生连贯的运动华盛顿大学、谷歌 DeepMind和加州大学伯克利分校的研究人员推出一种用于生成视频序列的方法Generative Inbetweening,能够在两个关键帧之间产生连贯的运动。简单来说,就是给定视频...新技术# Generative Inbetweening# 插帧# 视频序列2年前05750
图像风格化技术B-LoRA:将单张图片中的风格和内容分离,从而实现高质量的图像风格化处理来自特拉维夫大学和赖希曼大学的研究团队推出B-LoRA(Block Low-Rank Adaptation),它能够将单张图片中的风格和内容分离,从而实现高质量的图像风格化处理。图像风格化是指在保持图...新技术# B-LoRA# 图像风格化2年前05740
新型高效微调方法SaRA:用于提升预训练扩散模型(SD 1.5、SD 2.0和SD 3.0)在新任务上的表现上海交通大学和腾讯优图实验室的研究人员推出新型高效微调方法SaRA,用于提升预训练扩散模型在新任务上的表现。扩散模型是一种强大的生成模型,能够生成图像、视频和3D模型等。但这些模型通常需要大量的参数...新技术# SaRA# 微调模型2年前05720
腾讯推出多模态基础模型SEED-X:结合视觉和语言理解的能力,可以处理和生成各种类型的数据,包括图像和文本腾讯AI实验室和ARC实验室共同开发的多模态基础模型SEED-X,这是一个先进的人工智能系统,它结合了视觉和语言理解的能力,可以处理和生成各种类型的数据,包括图像和文本。简单来说,SEED-X就像一个...新技术# SEED-X# 多模态基础模型2年前05720
谷歌推出创新框架VLOGGER:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频谷歌推出创新框架VLOGGER,它能够根据一段音频和一张人物的单张照片生成这个人说话和动作的逼真视频。想象一下,你只需提供一张你的照片和你的语音记录,VLOGGER就能制作出一个视频,在视频中你可以看...新技术# VLOGGER# 谷歌2年前05720
英伟达推出VFC:用于生成高保真、详细图像和3D对象标题的强大工具英伟达推出VFC(Visual Fact Checker),它是一个用于生成高保真、详细图像和3D对象标题的强大工具。简单来说,VFC就像一个能够精确描述图片内容的智能助手,无论是2D的平面图像还是3...新技术# VFC2年前05710
基于文本的视频编辑模型Emu Video Edit (EVE)Meta推出基于文本的视频编辑模型Emu Video Edit (EVE),它能够在没有监督视频编辑数据的情况下,实现先进的视频编辑功能。 论文 EVE模型通过结合图像编辑适配器和视频生成适配器,并使...新技术# EVE# 视频编辑模型2年前05710
图像编辑框架StableDrag:通过点(handle points)来精确控制图像编辑南京大学软件新技术国家重点实验室和腾讯公司研究团队推出图像编辑框架StableDrag,它专注于通过点(handle points)来精确控制图像编辑。 项目主页 论文地址 StableDrag提供了...新技术# StableDrag# 图像编辑2年前05710
多视角图像编辑技术QNeRF:多视角图像编辑的一致性和质量特拉维夫大学、英伟达和卡内基梅隆大学的研究人员推出新型多视角图像编辑技术QNeRF(Query Neural Radiance Field),这项技术旨在解决在对同一场景从多个视角拍摄的图像集进行编辑...新技术# QNeRF# 多视角图像编辑2年前05710
分布式长视频生成框架Video-Infinity:能够利用多个GPU并行工作,快速生成长时间的视频内容新加坡国立大学的研究人员推出Video-Infinity系统,它是一个分布式的长视频生成框架。简单来说,Video-Infinity能够利用多个GPU(显卡)并行工作,快速生成长时间的视频内容。这对于...新技术# Video-Infinity# 长视频生成框架2年前05700
基准测试CommonsensenT2I:用于评估文生图模型(T2I)生成符合现实生活常识的图像的能力宾夕法尼亚大学和加州大学圣塔芭芭拉分校的研究人员推出基准测试CommonsensenT2I,用于评估文生图模型(T2I)生成符合现实生活常识的图像的能力。简单来说,就是研究这些模型是否能够根据文字描述...新技术# CommonsensenT2I# 基准测试# 文生图模型2年前05700