Madd模型:通过引入“功能性”概念,旨在根据各种位置提示将任何对象无缝插入任何场景中图像合成是计算机视觉中的一个常见任务,涉及将前景对象无缝集成到背景场景中。传统的图像合成方法通常依赖于人为的编辑或预定义的规则,难以处理前景对象与背景场景之间的复杂相互作用。为了应对这一挑战,哈佛大学...新技术# Madd模型# 图像编辑1年前03440
用于跨模态演变的通用且简单的框架CrossFlow:可以文本生成图片也可以图片转成文本扩散模型及其泛化(如流匹配)在媒体生成领域取得了显著进展,尤其是在跨模态任务中。传统方法通常从简单的源分布(如高斯噪声)学习到复杂的目标媒体分布,而流匹配的一个关键特性是它不受限于源分布必须是噪声。基...新技术# CrossFlow1年前02470
LeviTor: 基于深度增强拖动交互的3D轨迹控制图像到视频合成在图像到视频合成领域,基于拖动交互的方法因其直观性和易用性而受到广泛关注。然而,现有的2D拖动方法在处理物体的平面外运动时存在模糊性,难以精确控制物体在3D空间中的运动轨迹。为了解决这一问题,南京大学...新技术# LeviTor# SVD-XT1年前02730
Genesis:用于机器人技术及更广泛领域的生成式和通用物理引擎Genesis 是一个为通用机器人、具身AI和物理AI应用设计的综合性物理仿真平台。它结合了多种功能,旨在提供一个高效、灵活且用户友好的工具,帮助研究人员和开发者在虚拟环境中模拟复杂的物理现象、生成高...新技术# Genesis# 通用物理引擎1年前03170
视频分词器VidTok:用于将视频内容编码成紧凑的潜在标记微软研究院、上海交通大学和北京大学的研究人员推出视频分词器VidTok,它是一个多功能且开源的工具,用于将视频内容编码成紧凑的潜在标记(latent tokens)。VidTok在连续和离散标记化方面...新技术# VidTok# 视频分词器1年前03240
阿里通义实验室推出一个零样本、通用且交互式的视觉生成框架ChatDiT:允许用户通过自由形式的自然语言指令与系统交互,创建交织文本-图像文章、多页画册、编辑图像近年来,预训练扩散Transformer(DiTs)在上下文生成能力方面展现了巨大的潜力,能够以最小的架构修改或无需修改的情况下无缝适应多样化的视觉任务。这些能力通过跨多个输入和目标图像的自注意力令牌...新技术# ChatDiT# 视觉生成框架1年前03330
Prompt Depth Anything:利用提示释放深度基础模型潜力的新范式在计算机视觉领域,深度估计是许多应用(如3D重建、机器人导航和增强现实)的基础。然而,传统的单目深度估计方法虽然可以生成高分辨率的深度图,但在提供一致的度量尺度信息方面存在困难,即使经过LiDAR对齐...新技术# Prompt Depth Anything1年前02640
高度灵活的组合式时尚图像生成模型FashionComposer在时尚设计和虚拟试穿领域,传统的图像生成方法往往受限于单一的输入模式(如仅支持文本提示或单个参考图像),并且难以处理复杂的个性化需求,如多件服装的组合、多样化的姿势和人体形态。为了克服这些局限性,香港...新技术# FashionComposer# 虚拟试穿1年前03340
基于视频扩散模型的上色工具AniDoc:用于自动化2D动画制作流程中的线稿着色自动化视频线稿上色是简化动画制作流程、降低劳动力成本的关键技术。然而,传统方法面临多个挑战: 角色设计艺术与线稿草图对齐问题:确保颜色信息准确地映射到线稿中。 时间一致性需求:保证动画帧之间的颜色和风...新技术# AniDoc# 线稿着色1年前02910
零样本多实例视频编辑框架MIVE:能够对视频中的多个独立对象进行精确编辑,而不影响视频中的其他部分近年来,基于人工智能的视频编辑技术取得了显著进展,用户可以通过简单的文本提示轻松编辑视频。然而,现有的零样本视频编辑方法主要集中在全局或单一对象的编辑上,这可能导致视频其他部分发生意外变化。当需要对多...新技术# MIVE# 视频编辑1年前03350
Adobe推出以主题驱动的零样本视频定制新方法SUGARAdobe介绍了一个名为SUGAR(Subject-Driven Video Customization in a Zero-Shot Manner)的新技术,它是一种零样本(zero-shot)方法...新技术# SUGAR1年前02680
视觉-语言模型加速技术FEATHER:实现了超过5倍的性能提升最近的研究表明,尽管视觉信息被高度压缩,视觉-语言模型(VLMs)依然能在多种任务中保持出色的性能。本研究聚焦于一种流行的加速方法——早期修剪视觉标记,并揭示了其成功背后的关键原因。研究人员发现,许多...新技术# FEATHER1年前02540