无需训练的视频细化框架VideoRepair:自动识别和修复文生视频模型生成中的细粒度不对齐问题最近的文生视频模型在生成高质量视频方面取得了显著进展,但这些模型生成的视频往往与文本提示存在不对齐的情况,尤其是在处理包含多个对象和属性的复杂场景时。为了解决这一问题,北卡罗来纳大学教堂山分校的研究人...新技术# VideoRepair# 视频生成模型1年前03230
个性化面部老化方法MyTimeMachine:根据个人特定的照片集合来训练一个个性化的年龄转换模型,实现从儿童到老年的个性化面部年龄变化面部老化是一个复杂的过程,受到多种因素的影响,如性别、种族、生活方式等。尽管现有的面部老化技术能够生成逼真的老化图像,但它们通常无法准确预测特定个体的老化过程,因为这些技术缺乏个性化处理。为了克服这一...新技术# MyTimeMachine# 年龄# 面部老化1年前03360
ViewExtrapolator:于在新视角合成领域中进行新视角外推南洋理工大学和中国科学院大学的研究人员推出一个名为ViewExtrapolator的新方法,它用于在新视角合成(novel view synthesis, NVS)领域中进行新视角外推(novel v...新技术# ViewExtrapolator1年前03170
适用于FLUX 和 SD3.5模型的新采样器Style-Friendly SNR:更好地捕捉独特的风格,并生成风格对齐度更高的图像近年来,大型扩散模型在生成高质量图像方面取得了显著进展。然而,这些模型在学习新的、个性化的艺术风格方面存在困难,这限制了独特风格模板的创建。传统的微调方法通常盲目地利用预训练中使用的目标和噪声水平分布...新技术# Style-Friendly SNR# 采样器1年前05030
用于类别无关的姿态估计新型框架EdgeCape特拉维夫大学的研究人员推出新型框架EdgeCape,它用于类别无关的姿态估计(Category-Agnostic Pose Estimation, CAPE)。EdgeCape能够通过单一模型在多样化...新技术# EdgeCape# 姿态估计1年前03260
FIND3D模型:在开放世界环境中对3D对象的任何部分进行语义分割加州理工学院的研究人员推出FIND3D模型,它能够在开放世界环境中对3D对象的任何部分进行语义分割。这意味着FIND3D可以基于任何文本查询,对任何对象的任何部分进行分割。这项技术在机器人技术、虚拟现...新技术# FIND3D# 语义分割1年前02920
新型框架SplatFlow:用于3D高斯绘制(3DGS)的合成和编辑Twelvelabs和韩国科学技术研究院的研究人员推出新型框架SplatFlow,它用于3D高斯绘制(3D Gaussian Splatting,简称3DGS)的合成和编辑。SplatFlow通过结合...新技术# 3DGS# SplatFlow1年前02770
新型故事视频生成框架DreamRunner:根据文本脚本生成长篇、多动作、多场景的视频,适用于CogVideoX模型故事讲述视频生成(SVG)是一项旨在从文本脚本创建长时间、多动作、多场景视频的任务。这种技术在媒体和娱乐领域的内容创作中具有巨大潜力,但同时也面临着诸多挑战,包括但不限于: 物体需要展示一系列精细、复...新技术# DreamRunner# 视频生成1年前03170
适用于FLUX模型!新型零样本主题驱动图像生成方法Diptych Prompting主题驱动的文本到图像生成旨在通过准确捕捉主体的视觉特征和文本提示的语义内容,在期望的上下文中生成新主体的图像。传统方法依赖于耗时耗资源的微调以实现主题对齐,而最近的零样本方法则依赖于即时的图像提示,通...新技术# Diptych Prompting# FLUX模型1年前03470
整数低秩参数微调量化扩散模型IntLoRA:提升了文生图模型微调的效率近年来,文生图模型在各种下游任务中取得了显著的成果。然而,微调这些大型模型所需的计算资源非常庞大,限制了其在个性化定制和实际应用中的普及。为了解决这一问题,研究人员开始探索参数高效微调(PEFT)技术...新技术# IntLoRA1年前02970
DiffusionGS:单阶段3D扩散模型,实现单视图物体和场景生成现有的前馈图像到3D的方法主要依赖于2D多视图扩散模型,这些模型在生成3D内容时存在一些显著的局限性。首先,它们无法保证3D一致性,导致在改变提示视图方向时容易崩溃。其次,这些方法主要处理以物体为中心...新技术# 3D模型# DiffusionGS1年前03720
MagicDriveDiT:提高视频合成的效率和可控性,以更好地服务于自动驾驶应用随着扩散模型的迅速发展,视频合成技术尤其是可控视频生成领域取得了重大突破,这对自动驾驶等应用具有重要意义。然而,现有的视频生成方法在处理高分辨率和长视频时面临可扩展性和控制条件整合的挑战,限制了它们在...新技术# MagicDriveDiT# 自动驾驶1年前03490