苹果推出开源图像编辑模型MGIE:通过文字提示来编辑任何图像来自苹果的团队推出开源图像编辑模型MGIE(MLLM-Guided Image Editing),它旨在通过使用多模态大语言模型(MLLMs)来提升基于指令的图像编辑能力。简单来说,MGIE可以帮助用...新技术# MGIE# 图像编辑# 苹果2年前05590
视频生成通用世界模型WorldDreamer:可以完成自然场景和自动驾驶场景多种视频生成任务来自清华和极佳科技的研究人员联手推出了全新的视频生成通用世界模型WorldDreamer。它可以完成自然场景和自动驾驶场景多种视频生成任务,例如文生视频、图生视频、视频编辑、动作序列生视频等。 项目主...新技术# WorldDreamer# 视频生成2年前04960
图像高清修复技术SUPIR:将低质量图像提升到高质量水平来自中国科学院深圳先进技术学院、上海AI实验室、悉尼大学、香港理工大学、,腾讯PCG ARC实验室、香港中文大学的研究人员推出图像高清修复技术SUPIR(Scaling-UP Image Restor...新技术# SUPIR# 高清修复2年前07690
快速视频生成方法AnimateLCM:只需四步推理就可以生成视频来自香港中文大学、Avolution AI、上海人工智能实验室、商汤科技研究院的研究人员推出快速视频生成方法AnimateLCM,该方法利用一致性学习策略,将图像生成先验和运动生成先验进行解耦,从而提...新技术# AI视频生成# AnimateLCM2年前06670
针对图生图模型的machine unlearning(机器遗忘)框架来自美国德克萨斯大学奥斯汀分校和摩根大通全球技术应用研究中心的研究人员推出了一种针对图生图模型的machine unlearning(机器遗忘)框架,能够在不损害模型性能的前提下,有效地从模型中移除特...新技术# Machine Unlearning# 机器遗忘2年前05570
3D网格模型生成框架AToM来自Snap、沙特阿卜杜拉国王科技大学、多伦多大学的研究人员推出一款3D模型生成框架AToM(Amortized Text-to-Mesh),AToM的核心特点是能够同时优化多个文本提示(prompt...新技术# 3D网格模型# AToM2年前04870
北大团队推出多模态混合专家模型MoE-LLaVA来自北大的研究人员推出多模态的混合专家模型MoE-LLaVA,旨在通过一种新颖的训练策略,有效地提高模型在处理视觉和语言任务时的性能,同时保持计算成本的稳定。 GitHub Demo 论文 此模型只有...新技术# MoE-LLaVA# 北大# 多模态混合专家模型2年前05550
开源图像标注模型JoyTag:没有任何过滤和审查JoyTag是一个机器学习研究者推出的开源图像标注模型,该模型是在Danbooru 2021 + 手动标记的图像数据集上训练的,对训练的内容和标签没有任何过滤和审查,适用于从手绘到摄影的各种图像,在处...新技术# JoyTag# 图像标注模型# 开源2年前06430
图像超分辨率技术SeeSR:保持生成的高分辨率图像的语义准确性来自香港理工大学、OPPO、字节跳动的研究人员推出图像超分辨率技术SeeSR,它利用语义提示来增强预训练的文本到图像(T2I)扩散模型在处理现实世界图像超分辨率问题时的性能。这种方法特别关注于在图像质...新技术# SeeSR# 图像超分辨率2年前07070
图像修复模型InstructIR:按照人类指令进行高质量图像修复来自维尔茨堡大学计算机视觉实验室、索尼PlayStation旗下FTG团队的研究人员推出一款图像修复模型InstructIR,它能够根据人类编写的指令来修复和增强图像。简单来说,一张因为雨滴而模糊的招...新技术# InstructIR# 图像修复模型2年前05170
图像超分辨率技术StableSR:将低分辨率的图像转换为高分辨率的图像StableSR是来自南洋理工大学S实验室的研究人员开发的图像超分辨率技术,它可以将低分辨率的图像转换为高分辨率的图像。简单来说,这项技术可以让你看到的图片变得更加清晰和详细。 我们可以用一个生活中的...新技术# StableSR# 超分辨率2年前07470
小鹏科技推出通用视频编辑框架AiAS:将任何物体无缝插入到动态视频小鹏科技推出通用框架“Anything in Any Scene(AiAS)”,用于创建逼真视频模拟的方法,可以将任何物体无缝插入到现有的动态视频中。这种方法特别强调物理真实性,包括几何真实性、光照真...新技术# AiAS# 小鹏科技# 视频编辑2年前05880