无监督指令驱动图像编辑框架UIP2P:在不需要真实编辑图像数据集的情况下,根据文本指令对图像进行编辑 现有的基于指令的图像编辑方法通常依赖于监督学习,需要包含输入图像、编辑图像和编辑指令的三元组数据集。这些数据集通常通过现有编辑方法或人工标注生成,引入了偏差并限制了模型的泛化能力。为了克服这些挑战,苏... 新技术# UIP2P# 图像编辑 2个月前01360
Madd模型:通过引入“功能性”概念,旨在根据各种位置提示将任何对象无缝插入任何场景中 图像合成是计算机视觉中的一个常见任务,涉及将前景对象无缝集成到背景场景中。传统的图像合成方法通常依赖于人为的编辑或预定义的规则,难以处理前景对象与背景场景之间的复杂相互作用。为了应对这一挑战,哈佛大学... 新技术# Madd模型# 图像编辑 2个月前01140
用于跨模态演变的通用且简单的框架CrossFlow:可以文本生成图片也可以图片转成文本 扩散模型及其泛化(如流匹配)在媒体生成领域取得了显著进展,尤其是在跨模态任务中。传统方法通常从简单的源分布(如高斯噪声)学习到复杂的目标媒体分布,而流匹配的一个关键特性是它不受限于源分布必须是噪声。基... 新技术# CrossFlow 2个月前01120
LeviTor: 基于深度增强拖动交互的3D轨迹控制图像到视频合成 在图像到视频合成领域,基于拖动交互的方法因其直观性和易用性而受到广泛关注。然而,现有的2D拖动方法在处理物体的平面外运动时存在模糊性,难以精确控制物体在3D空间中的运动轨迹。为了解决这一问题,南京大学... 新技术# LeviTor# SVD-XT 2个月前01170
Genesis:用于机器人技术及更广泛领域的生成式和通用物理引擎 Genesis 是一个为通用机器人、具身AI和物理AI应用设计的综合性物理仿真平台。它结合了多种功能,旨在提供一个高效、灵活且用户友好的工具,帮助研究人员和开发者在虚拟环境中模拟复杂的物理现象、生成高... 新技术# Genesis# 通用物理引擎 2个月前01280
视频分词器VidTok:用于将视频内容编码成紧凑的潜在标记 微软研究院、上海交通大学和北京大学的研究人员推出视频分词器VidTok,它是一个多功能且开源的工具,用于将视频内容编码成紧凑的潜在标记(latent tokens)。VidTok在连续和离散标记化方面... 新技术# VidTok# 视频分词器 2个月前01230
阿里通义实验室推出一个零样本、通用且交互式的视觉生成框架ChatDiT:允许用户通过自由形式的自然语言指令与系统交互,创建交织文本-图像文章、多页画册、编辑图像 近年来,预训练扩散Transformer(DiTs)在上下文生成能力方面展现了巨大的潜力,能够以最小的架构修改或无需修改的情况下无缝适应多样化的视觉任务。这些能力通过跨多个输入和目标图像的自注意力令牌... 新技术# ChatDiT# 视觉生成框架 2个月前01220
Prompt Depth Anything:利用提示释放深度基础模型潜力的新范式 在计算机视觉领域,深度估计是许多应用(如3D重建、机器人导航和增强现实)的基础。然而,传统的单目深度估计方法虽然可以生成高分辨率的深度图,但在提供一致的度量尺度信息方面存在困难,即使经过LiDAR对齐... 新技术# Prompt Depth Anything 2个月前01150
高度灵活的组合式时尚图像生成模型FashionComposer 在时尚设计和虚拟试穿领域,传统的图像生成方法往往受限于单一的输入模式(如仅支持文本提示或单个参考图像),并且难以处理复杂的个性化需求,如多件服装的组合、多样化的姿势和人体形态。为了克服这些局限性,香港... 新技术# FashionComposer# 虚拟试穿 2个月前01060
基于视频扩散模型的上色工具AniDoc:用于自动化2D动画制作流程中的线稿着色 自动化视频线稿上色是简化动画制作流程、降低劳动力成本的关键技术。然而,传统方法面临多个挑战: 角色设计艺术与线稿草图对齐问题:确保颜色信息准确地映射到线稿中。 时间一致性需求:保证动画帧之间的颜色和风... 新技术# AniDoc# 线稿着色 2个月前01400
零样本多实例视频编辑框架MIVE:能够对视频中的多个独立对象进行精确编辑,而不影响视频中的其他部分 近年来,基于人工智能的视频编辑技术取得了显著进展,用户可以通过简单的文本提示轻松编辑视频。然而,现有的零样本视频编辑方法主要集中在全局或单一对象的编辑上,这可能导致视频其他部分发生意外变化。当需要对多... 新技术# MIVE# 视频编辑 2个月前01030
Adobe推出以主题驱动的零样本视频定制新方法SUGAR Adobe介绍了一个名为SUGAR(Subject-Driven Video Customization in a Zero-Shot Manner)的新技术,它是一种零样本(zero-shot)方法... 新技术# SUGAR 2个月前01090