新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

Enhance-A-Video：利用时间注意力温度调整提升DiT架构模型的视频生成质量

尽管基于DiT架构模型的视频生成技术取得了显著进展，现有模型在捕捉关键细节方面仍面临挑战。为了提高视频质量，视频增强成为一种直观的方法，其主要目标是：保持帧间一致性：确保相邻帧之间的视觉和语义一致性...

1年前

03970

用于跨模态音频-视频生成的统一框架AV-Link

莱斯大学和Snap的研究人员推出统一框架AV-Link，用于跨模态音频-视频生成。AV-Link利用冻结的视频和音频扩散模型的激活来进行时间对齐的跨模态条件生成，这意味着它可以基于视频内容生成与之语义...

新技术 # AV-Link

1年前

02780

新型图像编辑框架PixelMan：基于扩散模型，通过像素操作和生成来实现一致性的对象编辑

阿尔伯塔大学电子与计算机工程系、华为技术加拿大公司和华为麒麟解决方案的研究人员推出新型图像编辑框架PixelMan，它基于扩散模型（Diffusion Models, DMs），通过像素操作和生成来实...

新技术 # PixelMan # 图像编辑

1年前

03310

无监督指令驱动图像编辑框架UIP2P：在不需要真实编辑图像数据集的情况下，根据文本指令对图像进行编辑

现有的基于指令的图像编辑方法通常依赖于监督学习，需要包含输入图像、编辑图像和编辑指令的三元组数据集。这些数据集通常通过现有编辑方法或人工标注生成，引入了偏差并限制了模型的泛化能力。为了克服这些挑战，苏...

新技术 # UIP2P # 图像编辑

1年前

03510

Madd模型：通过引入“功能性”概念，旨在根据各种位置提示将任何对象无缝插入任何场景中

图像合成是计算机视觉中的一个常见任务，涉及将前景对象无缝集成到背景场景中。传统的图像合成方法通常依赖于人为的编辑或预定义的规则，难以处理前景对象与背景场景之间的复杂相互作用。为了应对这一挑战，哈佛大学...

新技术 # Madd模型 # 图像编辑

1年前

03530

用于跨模态演变的通用且简单的框架CrossFlow：可以文本生成图片也可以图片转成文本

扩散模型及其泛化（如流匹配）在媒体生成领域取得了显著进展，尤其是在跨模态任务中。传统方法通常从简单的源分布（如高斯噪声）学习到复杂的目标媒体分布，而流匹配的一个关键特性是它不受限于源分布必须是噪声。基...

新技术 # CrossFlow

1年前

02500

LeviTor: 基于深度增强拖动交互的3D轨迹控制图像到视频合成

在图像到视频合成领域，基于拖动交互的方法因其直观性和易用性而受到广泛关注。然而，现有的2D拖动方法在处理物体的平面外运动时存在模糊性，难以精确控制物体在3D空间中的运动轨迹。为了解决这一问题，南京大学...

新技术 # LeviTor # SVD-XT

1年前

02780

Genesis：用于机器人技术及更广泛领域的生成式和通用物理引擎

Genesis 是一个为通用机器人、具身AI和物理AI应用设计的综合性物理仿真平台。它结合了多种功能，旨在提供一个高效、灵活且用户友好的工具，帮助研究人员和开发者在虚拟环境中模拟复杂的物理现象、生成高...

新技术 # Genesis # 通用物理引擎

1年前

03240

视频分词器VidTok：用于将视频内容编码成紧凑的潜在标记

微软研究院、上海交通大学和北京大学的研究人员推出视频分词器VidTok，它是一个多功能且开源的工具，用于将视频内容编码成紧凑的潜在标记（latent tokens）。VidTok在连续和离散标记化方面...

新技术 # VidTok # 视频分词器

1年前

03290

阿里通义实验室推出一个零样本、通用且交互式的视觉生成框架ChatDiT：允许用户通过自由形式的自然语言指令与系统交互，创建交织文本-图像文章、多页画册、编辑图像

近年来，预训练扩散Transformer（DiTs）在上下文生成能力方面展现了巨大的潜力，能够以最小的架构修改或无需修改的情况下无缝适应多样化的视觉任务。这些能力通过跨多个输入和目标图像的自注意力令牌...

新技术 # ChatDiT # 视觉生成框架

1年前

03400

Prompt Depth Anything：利用提示释放深度基础模型潜力的新范式

在计算机视觉领域，深度估计是许多应用（如3D重建、机器人导航和增强现实）的基础。然而，传统的单目深度估计方法虽然可以生成高分辨率的深度图，但在提供一致的度量尺度信息方面存在困难，即使经过LiDAR对齐...

新技术 # Prompt Depth Anything

1年前

02680

高度灵活的组合式时尚图像生成模型FashionComposer

在时尚设计和虚拟试穿领域，传统的图像生成方法往往受限于单一的输入模式（如仅支持文本提示或单个参考图像），并且难以处理复杂的个性化需求，如多件服装的组合、多样化的姿势和人体形态。为了克服这些局限性，香港...

新技术 # FashionComposer # 虚拟试穿

1年前

03370

加载更多