适用于FLUX模型!新型零样本主题驱动图像生成方法Diptych Prompting主题驱动的文本到图像生成旨在通过准确捕捉主体的视觉特征和文本提示的语义内容,在期望的上下文中生成新主体的图像。传统方法依赖于耗时耗资源的微调以实现主题对齐,而最近的零样本方法则依赖于即时的图像提示,通...新技术# Diptych Prompting# FLUX模型1年前03480
整数低秩参数微调量化扩散模型IntLoRA:提升了文生图模型微调的效率近年来,文生图模型在各种下游任务中取得了显著的成果。然而,微调这些大型模型所需的计算资源非常庞大,限制了其在个性化定制和实际应用中的普及。为了解决这一问题,研究人员开始探索参数高效微调(PEFT)技术...新技术# IntLoRA1年前03080
DiffusionGS:单阶段3D扩散模型,实现单视图物体和场景生成现有的前馈图像到3D的方法主要依赖于2D多视图扩散模型,这些模型在生成3D内容时存在一些显著的局限性。首先,它们无法保证3D一致性,导致在改变提示视图方向时容易崩溃。其次,这些方法主要处理以物体为中心...新技术# 3D模型# DiffusionGS1年前03750
MagicDriveDiT:提高视频合成的效率和可控性,以更好地服务于自动驾驶应用随着扩散模型的迅速发展,视频合成技术尤其是可控视频生成领域取得了重大突破,这对自动驾驶等应用具有重要意义。然而,现有的视频生成方法在处理高分辨率和长视频时面临可扩展性和控制条件整合的挑战,限制了它们在...新技术# MagicDriveDiT# 自动驾驶1年前03580
无需训练的图像编辑技术Stable Flow:执行各种类型的图像编辑操作,包括非刚性编辑、物体添加、物体替换和全局场景编辑Snap Research、耶路撒冷希伯来大学、特拉维夫大学和赖希曼大学的研究人员推出图像编辑方法Stable Flow,这是一种无需训练的图像编辑技术,能够执行各种类型的图像编辑操作,包括非刚性编辑...新技术# Stable Flow# 图像编辑1年前03960
基础世界模型The Matrix:用于生成无限长度和实时的视频在追求高质量、实时视频生成的过程中,研究人员和开发者们面临着一系列挑战。传统的视频生成模型往往因高昂的计算成本、有限的视频时长以及缺乏实时交互性而受到限制。特别是在需要长时间、高分辨率视频生成的应用场...新技术# The Matrix# 世界模型1年前03480
Reducio-DiT:通过先进压缩技术提升视频生成效率随着技术的进步,视频生成模型已经能够创造出令人惊叹的高质量视频片段。然而,这些模型在实际应用中面临着一些显著的障碍,主要集中在计算资源的需求上。目前市场上的领先模型,例如Sora、Runway Gen...新技术# Reducio-DiT# Reducio-VAE1年前03490
开源版风格参考StyleCodes:能够将图像风格表达为一个 20 符号的 base64 代码扩散模型在图像生成方面取得了显著的成功,但如何有效地控制生成图像的风格仍然是一个挑战。虽然使用示例图像可以实现风格控制,但这种方法存在一些不便:示例图像体积较大,不易于分享,且可能涉及隐私问题。为此...新技术# Midjourney# StyleCodes# 风格参考1年前04630
SSAM 2增强版SAMURAI:专门设计用于视觉物体跟踪Segment Anything Model 2 (SAM 2) 是一个在物体分割任务中表现出色的模型,但在视觉物体跟踪方面仍面临一些挑战。特别是在处理拥挤场景中快速移动或自我遮挡的物体时,SAM 2...新技术# SAMURAI# SSAM 21年前06240
SageAttention2:适用于即插即用推理加速的精确4位注意力机制尽管线性层的量化技术已经广泛应用于深度学习模型中,但在加速注意力机制方面的应用仍然有限。为了提高注意力计算的效率并保持高精度,清华大学的研究团队提出了 SageAttention2,这是一个基于低精度...新技术# SageAttention2# 推理加速1年前03130
ITACLIP:通过图像、文本和架构增强提升无需训练的语义分割近年来,基础视觉语言模型(VLMs)的发展彻底改变了计算机视觉领域的研究方向。这些模型,尤其是 CLIP,不仅推动了开放词汇计算机视觉任务的研究,还在多个领域取得了显著成果。然而,尽管 VLMs 在开...新技术# ITACLIP# 语义分割1年前03880
CSpD:用于加速自回归图像生成模型的推理过程中国科学院大学、中国科学院自动化研究所和中国铁塔的研究人员介绍了一种名为“Continuous Speculative Decoding”(CSpD)的技术,用于加速自回归(Autoregressiv...新技术# CSpD# 推理加速1年前03080