SPRIGHT T2I:改进文生图模型在生成图像时保持空间一致性的能力来自亚利桑那州立大学、英特尔实验室、Hugging Face和华盛顿大学的研究人员推出SPRIGHT T2I,探讨如何改进文生图(Text-to-Image,简称T2I)模型在生成图像时保持空间一致性...新技术# SPRIGHT T2I# 文生图模型2年前09180
新型视图合成技术InstantSplat:在极短的时间内(大约40秒)从稀疏的、没有相机姿态信息的图像中重建和渲染出新视角的3D场景来自德克萨斯大学奥斯汀分校、英伟达、厦门大学、佐治亚理工学院、斯坦福大学和南加州大学推出新型视图合成技术InstantSplat,它能够在极短的时间内(大约40秒)从稀疏的、没有相机姿态信息的图像中重...新技术# 3D场景# InstantSplat2年前01,0430
基于身份条件的人脸基础模型Arc2Face:能够根据一个人的面部特征生成高质量的、逼真的图像来自英国伦敦帝国理工学院的研究人员推出基于身份条件的人脸基础模型Arc2Face,能够根据一个人的面部特征生成高质量的、逼真的图像。 项目主页 GitHub Demo 模型 想象一下,如果你有一张朋友...新技术# Arc2Face2年前05710
视频编辑框架VideoSwap:让用户自定义视频中的主要对象(例如人物、动物或物体),同时保持背景不变来自新加坡国立大学和Meta推出视频编辑框架VideoSwap,它能够让用户自定义视频中的主要对象(例如人物、动物或物体),同时保持背景不变。你还可以通过交互式操作(如添加、删除等)进一步细化交换结果...新技术# VideoSwap# 视频编辑框架2年前07970
TextCraftor:通过微调文本编码器来提高文本到图像生成模型的性能,使得生成的图像更加精确地反映文本描述的内容来自Snap和美国东北大学的研究人员推出文本编码器TextCraftor,它通过微调文本编码器来提高文本到图像生成模型的性能,使得生成的图像更加精确地反映文本描述的内容。这种方法减少了对大量数据集的依...新技术# TextCraftor# 文本编码器2年前05710
新型3D生成模型GaussianCube:通过结构化表示和优化传输方法解决了传统3D高斯溅射的问题来自中国科学技术大学、清华大学和微软亚洲研究院的研究人员推出新型3D生成模型GaussianCube,它通过结构化表示和优化传输方法解决了传统3D高斯溅射的挑战,为3D内容的生成和编辑提供了一种高效且...新技术# 3D生成模型# GaussianCube2年前05480
多模态大语言模型LITA:专门设计来处理视频中的时间定位问题英伟达推出多模态大语言模型LITA(Language Instructed Temporal-Localization Assistant),它专门设计来处理视频中的时间定位问题。 GitHub 论文...新技术# LITA# 多模态大语言模型2年前08010
创新框架FeatUp:提高深度学习模型中图像特征的空间分辨率,而不会损失原有的语义信息来自麻省理工、微软、Adobe和谷歌的研究团队推出创新框架FeatUp,它能够提高深度学习模型中图像特征的空间分辨率,而不会损失原有的语义信息。在计算机视觉领域,深度学习模型通常会从图像中提取特征,这...新技术# FeatUp# 深度模型2年前05340
图像转换方法img2img-turbo:在单个步骤中完成复杂的图像转换任务,同时不需要成对的训练数据,适用于多种应用场景来自卡内基梅隆大学和Adobe的研究人员推出新的图像转换方法img2img-turbo,它能够在单个步骤中将图像从源域转换到目标域,例如从白天的场景转换到夜晚,或者添加和移除天气效果如雾、雪和雨。这种...新技术# img2img-turbo# 图像转换2年前09180
图像编辑框架FlexEdit:用于灵活且可控地编辑图像中的物体来自VinAI Research和越南科技大学的研究人员推出图像编辑框架FlexEdit,它是一个基于扩散模型(Stable Diffusion)的图像编辑框架,专门设计用于灵活且可控地编辑图像中的物...新技术# FlexEdit# 图像编辑框架2年前07310
Garment3DGen:根据真实世界的图像或通过文本描述生成的图像来创建3D服装模型Meta推出Garment3DGen,它是一种自动化的方法,能够将基础的服装网格模型转换成可以直接用于模拟的资产,无论是通过图像还是文本提示。这个方法使得快速生成资产变得简单快捷,大大降低了原本需要专...新技术# 3D服装模型# Garment3DGen2年前07260
图像风格化技术B-LoRA:将单张图片中的风格和内容分离,从而实现高质量的图像风格化处理来自特拉维夫大学和赖希曼大学的研究团队推出B-LoRA(Block Low-Rank Adaptation),它能够将单张图片中的风格和内容分离,从而实现高质量的图像风格化处理。图像风格化是指在保持图...新技术# B-LoRA# 图像风格化2年前05630