新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

前馈单图像人体重建框架IDOL：能够从单张图片中快速创建出高保真度、可动画化的3D全身人物形象

南京大学、中国科学院深圳先进技术研究院、清华大学、腾讯和深圳理工大学的研究人员共同推出了IDOL（Image-based Detailed and Optimized Avatar），这是一个具有快速...

新技术 # IDOL

1年前

02710

新型视频建模架构TRecViT：结合了时间序列处理和空间特征提取的优势，以提高视频理解任务的性能

Google DeepMind发布一种新型的视频建模架构TRecViT（Temporal Recurrent Video Transformer）。这个架构是一种混合模型，它结合了时间序列处理和空间特...

新技术 # TRecViT # 视频建模架构

1年前

03000

类卷积局部注意力策略CLEAR：提升FLUX模型在高分辨率图像生成任务中的效率

在图像生成领域，DiT（Diffusion Transformer）架构凭借其卓越的表现成为前沿技术。然而，该架构的核心——用于建模令牌间关系的注意力机制，由于其计算复杂度为二次方，导致在处理高分辨率...

新技术 # CLEAR # FLUX模型

1年前

03410

并行自回归视觉生成方法PAR：通过并行生成视觉标记来加速图像和视频的生成过程，同时确保生成质量

自回归模型在视觉生成领域表现出色，但其逐个预测token的顺序过程导致了推理速度较慢。为了解决这一问题，香港大学、字节跳动和北京大学的研究人员提出了一种简单而有效的并行自回归视觉生成方法——PAR（P...

新技术 # PAR

1年前

02910

超分辨率渲染新技术框架DFASRR：实现任意比例的超分辨率渲染，以实时生成高清晰度图像

南京大学计算机软件新技术国家重点实验室的研究人员介绍了一种名为“DFASRR（Deep Fourier-based Arbitrary-scale Super-resolution for Real...

新技术 # DFASRR # 超分辨率渲染

1年前

03660

Enhance-A-Video：利用时间注意力温度调整提升DiT架构模型的视频生成质量

尽管基于DiT架构模型的视频生成技术取得了显著进展，现有模型在捕捉关键细节方面仍面临挑战。为了提高视频质量，视频增强成为一种直观的方法，其主要目标是：保持帧间一致性：确保相邻帧之间的视觉和语义一致性...

新技术 # CogVideoX-2B # DiT架构模型 # Enhance-A-Video

1年前

03910

用于跨模态音频-视频生成的统一框架AV-Link

莱斯大学和Snap的研究人员推出统一框架AV-Link，用于跨模态音频-视频生成。AV-Link利用冻结的视频和音频扩散模型的激活来进行时间对齐的跨模态条件生成，这意味着它可以基于视频内容生成与之语义...

新技术 # AV-Link

1年前

02740

新型图像编辑框架PixelMan：基于扩散模型，通过像素操作和生成来实现一致性的对象编辑

阿尔伯塔大学电子与计算机工程系、华为技术加拿大公司和华为麒麟解决方案的研究人员推出新型图像编辑框架PixelMan，它基于扩散模型（Diffusion Models, DMs），通过像素操作和生成来实...

新技术 # PixelMan # 图像编辑

1年前

03230

无监督指令驱动图像编辑框架UIP2P：在不需要真实编辑图像数据集的情况下，根据文本指令对图像进行编辑

现有的基于指令的图像编辑方法通常依赖于监督学习，需要包含输入图像、编辑图像和编辑指令的三元组数据集。这些数据集通常通过现有编辑方法或人工标注生成，引入了偏差并限制了模型的泛化能力。为了克服这些挑战，苏...

新技术 # UIP2P # 图像编辑

1年前

03480

Madd模型：通过引入“功能性”概念，旨在根据各种位置提示将任何对象无缝插入任何场景中

图像合成是计算机视觉中的一个常见任务，涉及将前景对象无缝集成到背景场景中。传统的图像合成方法通常依赖于人为的编辑或预定义的规则，难以处理前景对象与背景场景之间的复杂相互作用。为了应对这一挑战，哈佛大学...

新技术 # Madd模型 # 图像编辑

1年前

03430

用于跨模态演变的通用且简单的框架CrossFlow：可以文本生成图片也可以图片转成文本

扩散模型及其泛化（如流匹配）在媒体生成领域取得了显著进展，尤其是在跨模态任务中。传统方法通常从简单的源分布（如高斯噪声）学习到复杂的目标媒体分布，而流匹配的一个关键特性是它不受限于源分布必须是噪声。基...

新技术 # CrossFlow

1年前

02460

LeviTor: 基于深度增强拖动交互的3D轨迹控制图像到视频合成

在图像到视频合成领域，基于拖动交互的方法因其直观性和易用性而受到广泛关注。然而，现有的2D拖动方法在处理物体的平面外运动时存在模糊性，难以精确控制物体在3D空间中的运动轨迹。为了解决这一问题，南京大学...

新技术 # LeviTor # SVD-XT

1年前

02730

加载更多