Genesis:用于机器人技术及更广泛领域的生成式和通用物理引擎Genesis 是一个为通用机器人、具身AI和物理AI应用设计的综合性物理仿真平台。它结合了多种功能,旨在提供一个高效、灵活且用户友好的工具,帮助研究人员和开发者在虚拟环境中模拟复杂的物理现象、生成高...新技术# Genesis# 通用物理引擎1年前03170
视频分词器VidTok:用于将视频内容编码成紧凑的潜在标记微软研究院、上海交通大学和北京大学的研究人员推出视频分词器VidTok,它是一个多功能且开源的工具,用于将视频内容编码成紧凑的潜在标记(latent tokens)。VidTok在连续和离散标记化方面...新技术# VidTok# 视频分词器1年前03240
阿里通义实验室推出一个零样本、通用且交互式的视觉生成框架ChatDiT:允许用户通过自由形式的自然语言指令与系统交互,创建交织文本-图像文章、多页画册、编辑图像近年来,预训练扩散Transformer(DiTs)在上下文生成能力方面展现了巨大的潜力,能够以最小的架构修改或无需修改的情况下无缝适应多样化的视觉任务。这些能力通过跨多个输入和目标图像的自注意力令牌...新技术# ChatDiT# 视觉生成框架1年前03330
Prompt Depth Anything:利用提示释放深度基础模型潜力的新范式在计算机视觉领域,深度估计是许多应用(如3D重建、机器人导航和增强现实)的基础。然而,传统的单目深度估计方法虽然可以生成高分辨率的深度图,但在提供一致的度量尺度信息方面存在困难,即使经过LiDAR对齐...新技术# Prompt Depth Anything1年前02630
高度灵活的组合式时尚图像生成模型FashionComposer在时尚设计和虚拟试穿领域,传统的图像生成方法往往受限于单一的输入模式(如仅支持文本提示或单个参考图像),并且难以处理复杂的个性化需求,如多件服装的组合、多样化的姿势和人体形态。为了克服这些局限性,香港...新技术# FashionComposer# 虚拟试穿1年前03340
基于视频扩散模型的上色工具AniDoc:用于自动化2D动画制作流程中的线稿着色自动化视频线稿上色是简化动画制作流程、降低劳动力成本的关键技术。然而,传统方法面临多个挑战: 角色设计艺术与线稿草图对齐问题:确保颜色信息准确地映射到线稿中。 时间一致性需求:保证动画帧之间的颜色和风...新技术# AniDoc# 线稿着色12个月前02860
零样本多实例视频编辑框架MIVE:能够对视频中的多个独立对象进行精确编辑,而不影响视频中的其他部分近年来,基于人工智能的视频编辑技术取得了显著进展,用户可以通过简单的文本提示轻松编辑视频。然而,现有的零样本视频编辑方法主要集中在全局或单一对象的编辑上,这可能导致视频其他部分发生意外变化。当需要对多...新技术# MIVE# 视频编辑1年前03350
Adobe推出以主题驱动的零样本视频定制新方法SUGARAdobe介绍了一个名为SUGAR(Subject-Driven Video Customization in a Zero-Shot Manner)的新技术,它是一种零样本(zero-shot)方法...新技术# SUGAR1年前02670
视觉-语言模型加速技术FEATHER:实现了超过5倍的性能提升最近的研究表明,尽管视觉信息被高度压缩,视觉-语言模型(VLMs)依然能在多种任务中保持出色的性能。本研究聚焦于一种流行的加速方法——早期修剪视觉标记,并揭示了其成功背后的关键原因。研究人员发现,许多...新技术# FEATHER1年前02540
通过实现空间可扩展和全景动态场景合成的创新框架DynamicScaler:用于生成高质量、可扩展的全景动态场景视频随着对沉浸式 AR/VR 应用和空间智能需求的增加,生成高质量的场景级和 360° 全景视频变得尤为重要。然而,大多数视频扩散模型受限于分辨率和宽高比,限制了它们在场景级动态内容合成中的应用。为了解决...新技术# DynamicScaler1年前02870
新型扩散模型框架VividFace:专门为视频换脸而设计视频换脸技术近年来在各种应用中变得越来越流行,但现有方法主要集中在静态图像上,难以应对视频换脸中的时间一致性和复杂场景问题。为了解决这些问题,香港中文大学 MMLab、商汤科技研究院和 InnoHK ...新技术# VividFace# 视频换脸1年前02840
字节推出CausalFusion:基于解码器的变换器,旨在统一自回归(AR)和扩散模型的生成范式字节跳动介绍了一个名为CausalFusion的模型,它是一个基于解码器的变换器(decoder-only transformer),旨在统一自回归(AR)和扩散模型(diffusion models...新技术# CausalFusion1年前03270