RollingDepth:将单图像深度估计转化为高效的视频深度估计随着大型基础模型的发展和合成训练数据的广泛应用,单图像深度估计技术取得了显著进展,这重新激发了研究者对视频深度估计的兴趣。然而,直接将单图像深度估计器应用于视频每一帧的方法存在明显缺陷,如时间连续性忽...新技术# RollingDepth# 视频深度1年前02880
VISTA框架:通过视频时空增强技术,提升对长时和高分辨率视频的理解能力滑铁卢大学、矢量研究所和零一万物的研究人员推出VISTA框架,旨在通过视频时空增强技术,提升对长时和高分辨率视频的理解能力。VISTA通过从现有的视频-字幕数据集中合成长时和高分辨率视频指令对,以增强...新技术# VISTA1年前02720
新型音频驱动的肖像视频生成方法FLOAT:基于流匹配生成模型,能够在给定单一源图像和音频的情况下生成具有自然说话动作的肖像视频DeepBrain和韩国科学技术院人工智能研究生院的研究人员推出新型音频驱动的肖像视频生成方法FLOAT,它基于流匹配生成模型,能够在给定单一源图像和音频的情况下生成具有自然说话动作的肖像视频。FLO...新技术# FLOAT# 肖像视频1年前02470
FlowChef:利用矢量场动力学的统一受控图像生成框架扩散模型(DMs)在照片真实感图像生成、图像编辑和逆问题解决方面取得了显著进展,这主要归功于无分类器引导和图像反演技术。然而,校正流模型(RFMs)在这类任务中的潜力尚未得到充分开发。现有的基于DM的...新技术# FlowChef# 图像生成框架1年前03160
新型自回归视觉语言基础模型X-Prompt:实现通用的上下文内图像生成随着大语言模型(LLMs)在自然语言处理领域的广泛应用,基于LLMs的自动回归视觉语言模型(VLMs)在文本到图像生成方面也取得了显著进展。然而,上下文学习——即通过少量示例来指导模型执行特定任务的能...新技术# X-Prompt1年前02440
轻量级的新型视频对象分割和跟踪模型EfficientTAM随着视频对象分割(VOS)和跟踪任务的日益复杂,现有的强大工具如SAM 2虽然在准确性和功能上表现出色,但其高计算复杂性限制了其在移动设备等资源受限环境中的应用。为了解决这一问题,Meta和南洋理工大...新技术# EfficientTAM# 视频对象分割# 跟踪模型1年前02480
零一万物推出Presto:专为生成长达15秒的高质量视频而设计的新型扩散模型零一万物团队隆重推出Presto——一款专为生成长达15秒的高质量视频而设计的新型扩散模型。Presto旨在克服长时间视频生成中保持场景多样性和一致性的挑战,通过引入分段交叉注意力(Segmented...新技术# Presto# 零一万物1年前02850
新型自编码器WF-VAE:为提高潜在视频扩散模型中视频变分自编码器的性能而设计北大-兔展AIGC联合实验室推出新型自编码器WF-VAE,此编码器与开源视频生成项目Open-Sora Plan相关,它是为了提高潜在视频扩散模型(Latent Video Diffusion Mod...新技术# WF-VAE# 自编码器1年前02850
针对DiT模型的深度修剪方法TinyFusion:通过端到端学习去除冗余层,以减少模型的参数量和提高推理效率新加坡国立大学的研究人员推出一个针对DiT模型的深度修剪方法TinyFusion,旨在通过端到端学习去除冗余层,以减少模型的参数量和提高推理效率。DiT架构在图像生成领域展现出了卓越的能力,但通常伴随...新技术# DiT模型# TinyFusion1年前02780
先进跟踪系统TAPTRv3:用于在长视频中跟踪任意点IDEA Research、华南理工大学、清华大学和香港科技大学的研究人员推出先进跟踪系统TAPTRv3,它专门设计用于在长视频中跟踪任意点。TAPTRv3是建立在TAPTRv2基础上的,主要目标是提...新技术# TAPTRv31年前02990
PSHuman:利用多视角扩散模型先验的3D人体建模新框架真实感3D人体建模在虚拟现实、增强现实、电影制作、游戏开发和医疗等领域具有广泛的应用。尽管单目全身重建方法取得了显著进展,但它们通常依赖于前视图和/或预测的后视图,这导致了由于问题的病态性质和复杂的自...新技术# 3D人体建模# PSHuman1年前03140
可控人类图像生成的新框架BootComp:特别适用于包含多个参考服装的情况韩国科学技术研究院和OMNIOUS.AI的研究人员提出了BootComp——一种用于可控人类图像生成的新框架,特别适用于包含多个参考服装的情况。这一创新解决了训练数据获取的主要瓶颈,即为每个人类主体收...新技术# BootComp1年前02970