基于扩散模型的人类视频生成框架AnchorCrafter:用于创建高保真度的主播风格产品推广视频。自动生成锚点风格的产品推广视频在在线商务、广告和消费者互动中展现出巨大的潜力。然而,尽管姿态引导的人类视频生成技术取得了显著进展,这一任务仍然充满挑战。特别是将人-物交互(Human-Object I...新技术# AnchorCrafter# 视频生成1年前03030
视觉-语言模型FINECAPTION:专注于在任意位置和任意粒度级别上进行组合式图像描述随着大型视觉语言模型(VLMs)的出现,多模态任务的发展取得了显著进展。这些模型在图像和视频字幕、视觉问答以及跨模态检索等应用中展现了强大的推理能力。然而,尽管VLMs具有卓越的表现,它们在细粒度图像...新技术# FINECAPTION# 视觉-语言模型1年前03190
语言驱动的顺序草图生成方法SketchAgent:让用户通过动态、对话式的交互来创建、修改和细化草图MIT和斯坦福大学的研究人员推出一种语言驱动的顺序草图生成方法SketchAgent,能够让用户通过动态、对话式的交互来创建、修改和细化草图。例如,你想要生成一个关于“蝴蝶”的草图。你可以给Sketc...新技术# SketchAgent# 草图1年前03470
ConsisID:无调优可控的身份保持文本到视频生成身份保持的文本到视频(IPT2V)生成旨在创建具有一致人类身份的高保真视频,这是视频生成领域的重要任务之一。然而,生成模型在这一方面仍然面临诸多挑战。北京大学、鹏城实验室、罗切斯特大学和新加坡国立大学...新技术# ConsisID1年前02960
用于保护个人肖像图像免受恶意生成编辑的新技术FaceLock随着扩散模型的迅速发展,生成图像编辑变得更加普及,这不仅促进了创意表达,也引发了严重的伦理问题。特别是对人类肖像的恶意编辑,如深度伪造(deepfake)技术,威胁到了个人隐私和身份安全。为了应对这一...新技术# FaceLock1年前02570
图像修复模型ABAIR:在从受到未知退化影响的输入图像中恢复出高质量的图像在图像处理领域,盲目的全功能图像恢复(Blind All-in-One Image Restoration, BAIR)旨在从未知失真退化的输入中恢复高质量的图像。然而,传统方法在训练阶段需要预先定义...新技术# ABAIR模型1年前02700
Omegance:用于控制基于扩散模型合成中细节粒度(granularity)的单一参数方法南洋理工大学额研究人员推出Omegance,它是一种用于控制基于扩散模型合成中细节粒度(granularity)的单一参数方法。Omegance通过在扩散模型的反向去噪步骤中引入一个参数ω(omega...新技术# Omegance1年前02630
视频引导音效生成模型MultiFoley:根据多种模态的控制信号(包括文本、音频和视频)来生成与视频同步的声音效果在影视制作、游戏开发和多媒体内容创作中,为视频添加恰当的音效是提升观众体验的重要环节。然而,创造既符合视觉场景又具有艺术感的音效往往需要耗费大量时间和专业技能。为了应对这一挑战,密歇根大学与Adobe...新技术# MultiFoley# 视频引导音效生成模型1年前02830
统一多模态框架UniPose:用于理解、生成和编辑人体姿态中国科学院计算技术研究所和中国科学院大学的研究人员推出统一多模态框架UniPose,它用于理解、生成和编辑人体姿态。UniPose利用大语言模型(LLMs)来处理包括图像、文本和3D SMPL姿态在内...新技术# UniPose# 人体姿态# 多模态1年前03010
个性化图像生成的高效、轻量级框架DreamCache:在不需要额外微调的情况下,通过特征缓存实现快速的个性化图像生成在数字内容创作日益丰富的今天,个性化图像生成技术正逐渐成为各行业创新的关键。这项技术依赖于文本到图像的生成模型,它们能够识别并捕捉参考对象的核心特征,从而在各种情境中实现可控的图像生成。然而,现有的方...新技术# DreamCache# 个性化图像生成1年前02840
CoDe:提高视觉自回归(VAR)模型在图像生成任务中的效率新加坡国立大学的研究人员推出一个名为“Collaborative Decoding(CoDe)”的新方法,旨在提高视觉自回归(Visual Auto-Regressive,简称VAR)模型在图像生成任...新技术# CODE# 视觉自回归模型1年前02640
3D高效框架Make-It-Animatable:将任意3D人物模型快速制作成可用于动画的角色中国科学技术大学和腾讯的研究人员推出高效框架Make-It-Animatable,它用于将任意3D人物模型快速制作成可用于动画的角色。这个框架能够在不到一秒钟的时间内,无论3D模型的形状和姿势如何,都...新技术# 3D# Make-It-Animatable1年前03190