新型视图合成技术InstantSplat:在极短的时间内(大约40秒)从稀疏的、没有相机姿态信息的图像中重建和渲染出新视角的3D场景
来自德克萨斯大学奥斯汀分校、英伟达、厦门大学、佐治亚理工学院、斯坦福大学和南...
视频编辑框架VideoSwap:让用户自定义视频中的主要对象(例如人物、动物或物体),同时保持背景不变
来自新加坡国立大学和Meta推出视频编辑框架VideoSwap,它能够让用户自定义视频中...
TextCraftor:通过微调文本编码器来提高文本到图像生成模型的性能,使得生成的图像更加精确地反映文本描述的内容
来自Snap和美国东北大学的研究人员推出文本编码器TextCraftor,它通过微调文本编...
多模态大语言模型LITA:专门设计来处理视频中的时间定位问题
英伟达推出多模态大语言模型LITA(Language Instructed Temporal-Localization As...
图像转换方法img2img-turbo:在单个步骤中完成复杂的图像转换任务,同时不需要成对的训练数据,适用于多种应用场景
来自卡内基梅隆大学和Adobe的研究人员推出新的图像转换方法img2img-turbo,它能够...