Face-Adapter:专为预训练扩散模型设计的高效且有效的适配器,用于实现高精度和高保真的面部编辑来自浙江大学、腾讯、 VIVO和南洋理工大学的研究人员推出Face-Adapter,这是一个专为预训练扩散模型设计的高效且有效的适配器,用于实现高精度和高保真的面部编辑。经过观察,开发人员发现无论是人...新技术# Face-Adapter# 适配器# 面部编辑2年前05320
微软推出小型语言模型Phi-3系列:可在手机端运行的大模型微软推出小型语言模型Phi-3系列,它在性能上可以与一些大型模型相媲美,如Mixtral 8x7B和GPT-3.5,但大小却足以部署在手机上。这项技术的创新之处在于其训练数据集,这是phi-2数据集的...新技术# Phi-3# 微软2年前05320
开源版风格参考StyleCodes:能够将图像风格表达为一个 20 符号的 base64 代码扩散模型在图像生成方面取得了显著的成功,但如何有效地控制生成图像的风格仍然是一个挑战。虽然使用示例图像可以实现风格控制,但这种方法存在一些不便:示例图像体积较大,不易于分享,且可能涉及隐私问题。为此...新技术# Midjourney# StyleCodes# 风格参考1年前05300
创新人工智能系统Genie:从单一图像提示生成无限种可玩(即可通过行动控制的)游戏场景来自不列颠哥伦比亚大学和Google DeepMind研究人员提出创新人工智能系统Genie,它能够从互联网上的未标记视频数据中学习,生成可交互的虚拟环境。Genie的核心功能是将文本、合成图像、照片...新技术# Genie# Google DeepMind1年前05300
新颖的图生视频方法PhysGen:能够将一张静态图片转换成一段真实感强、物理上可信、时间上连贯的视频伊利诺伊大学香槟分校推出一种新颖的图像到视频生成方法PhysGen,它能够将一张静态图片转换成一段真实感强、物理上可信、时间上连贯的视频。简单来说,就是给定一张图片,比如一个球在斜坡上,PhysGen...新技术# PhysGen# 图生视频1年前05290
视频字幕生成模型Video ReCap:能为长达数小时的视频生成多层次的字幕来自北卡罗来纳大学教堂山分校和 Meta AI的研究人员推出视频字幕生成模型Video ReCap,它能够为长达数小时的视频生成多层次的字幕。 这个模型的设计受到了人类行为层次结构的启发,人类行为通常...新技术# Video ReCap# 视频字幕生成模型2年前05290
创新框架Generative Photomontage:通过组合多个生成的图像来创建他们所需的图像卡内基梅隆大学和赖希曼大学的研究人员推出创新框架Generative Photomontage,它使用户能够通过组合多个生成的图像来创建他们所需的图像,这个过程就像是用不同的图像拼贴出一幅全新的画面...新技术# Generative Photomontage2年前05270
阿里推出高清长视频生成方法EasyAnimate:基于Transformer架构,能够高效地制作出高质量的视频内容阿里推出先进视频生成方法EasyAnimate,它基于Transformer架构,能够高效地制作出高质量的视频内容,目前EasyAnimate已能展现出生成包含144帧视频的能力。例如,你想要制作一段...新技术# EasyAnimate# 长视频生成1年前05250
新型3D生成模型VFusion3D:利用预训练的视频扩散模型来创建可扩展的3D生成模型来自Meta和牛津大学的研究团队推出新型3D生成模型VFusion3D,它利用预训练的视频扩散模型来创建可扩展的3D生成模型。这项技术的核心在于解决3D数据稀缺的问题,因为3D数据不像图片、文本或视频...新技术# 3D生成模型# VFusion3D2年前05250
图像修复模型InstructIR:按照人类指令进行高质量图像修复来自维尔茨堡大学计算机视觉实验室、索尼PlayStation旗下FTG团队的研究人员推出一款图像修复模型InstructIR,它能够根据人类编写的指令来修复和增强图像。简单来说,一张因为雨滴而模糊的招...新技术# InstructIR# 图像修复模型2年前05250
多模态统一模型UniMuMo:能够处理文本、音乐和动作(运动)数据,并在这三种模式之间生成内容香港中文大学、华盛顿大学、不列颠哥伦比亚大学、麻省大学阿默斯特分校、 MIT-IBM Watson AI 实验室和思科研究院的研究人员推出多模态统一模型UniMuMo,它能够处理文本、音乐和动作(运动...新技术# UniMuMo# 多模态统一模型1年前05230
新型多模态图像生成系统MUMU:从文本和图像混合提示生成图像来自萨特希尔风险投资公司的研究人员推出新型多模态图像生成系统MUMU,MUMU的核心能力是从文本和图像混合提示(multimodal prompts)生成图像。简单来说,用户可以提供一些文本描述和参考...新技术# MUMU# 多模态图像生成2年前05230