视觉-语言模型加速技术FEATHER:实现了超过5倍的性能提升 最近的研究表明,尽管视觉信息被高度压缩,视觉-语言模型(VLMs)依然能在多种任务中保持出色的性能。本研究聚焦于一种流行的加速方法——早期修剪视觉标记,并揭示了其成功背后的关键原因。研究人员发现,许多... 新技术# FEATHER 2个月前01130
通过实现空间可扩展和全景动态场景合成的创新框架DynamicScaler:用于生成高质量、可扩展的全景动态场景视频 随着对沉浸式 AR/VR 应用和空间智能需求的增加,生成高质量的场景级和 360° 全景视频变得尤为重要。然而,大多数视频扩散模型受限于分辨率和宽高比,限制了它们在场景级动态内容合成中的应用。为了解决... 新技术# DynamicScaler 2个月前01180
新型扩散模型框架VividFace:专门为视频换脸而设计 视频换脸技术近年来在各种应用中变得越来越流行,但现有方法主要集中在静态图像上,难以应对视频换脸中的时间一致性和复杂场景问题。为了解决这些问题,香港中文大学 MMLab、商汤科技研究院和 InnoHK ... 新技术# VividFace# 视频换脸 2个月前01130
字节推出CausalFusion:基于解码器的变换器,旨在统一自回归(AR)和扩散模型的生成范式 字节跳动介绍了一个名为CausalFusion的模型,它是一个基于解码器的变换器(decoder-only transformer),旨在统一自回归(AR)和扩散模型(diffusion models... 新技术# CausalFusion 2个月前01100
新型图像编辑方法FluxSpace:基于修正流变换器(如Flux)来实现文本引导的图像编辑 校正流模型(如 Flux)在图像生成中已成为主导方法,展示了高质量图像合成的卓越能力。然而,尽管它们在视觉生成中表现出色,校正流模型在图像的解耦编辑方面往往表现不佳。这一限制阻碍了在不影响图像无关部分... 新技术# FLUX# FluxSpace# 图像编辑 2个月前01280
多模态音乐生成系统VMB:够从多种输入模态(如文本、图像和视频)中生成音乐 多模态音乐生成旨在从多种输入模态(如文本、视频和图像)中生成音乐。尽管现有方法通过使用通用嵌入空间进行多模态融合,在其他任务中表现出色,但在多模态音乐生成中仍面临以下挑战: 数据稀缺:高质量的多模态音... 新技术# VMB# 音乐生成 2个月前01270
ObjectMate:能够在无需微调的情况下,实现对象插入和主题驱动的图像生成 对象插入和主体驱动生成是计算机视觉中的两个重要任务,旨在将给定的对象合成到由图像或文本指定的场景中。具体来说: 对象插入:将一个对象无缝地插入到目标场景中,要求合成后的图像在姿态、光照等方面看起来逼真... 新技术# ObjectMate# 图像编辑 2个月前01230
无需微调的推理范式FreeScale:通过 尺度融合 实现更高分辨率的图片生成 视觉扩散模型(Diffusion Models)在图像和视频生成领域取得了显著进展,但由于缺乏高分辨率数据和计算资源的限制,它们通常只能在有限的分辨率下进行训练。这阻碍了其生成高保真图像或视频的能力。... 新技术# FreeScale 2个月前01140
实例感知结构化字幕框架InstanceCap:实现实例级 和 细粒度 的视频字幕生成,显著提升了字幕与视频之间的一致性和保真度 近年来,文本到视频生成技术取得了显著进展,但现有的视频字幕生成方法仍然存在一些问题: 细节不足:传统的视频字幕往往缺乏对视频中物体和场景的细粒度描述,导致生成的视频在细节上不够丰富。 幻觉现象:由于模... 新技术# InstanceCap# 字幕 2个月前01190
GenEx:从单张RGB图像生成一个可探索的3D一致性虚拟环境 理解、导航和探索三维物理现实世界一直是人工智能(AI)领域的一个核心挑战。传统的方法通常依赖于传感器数据(如摄像头、激光雷达等)来构建环境的即时感知,但这限制了代理在未见区域的预测能力和决策效率。为了... 新技术# GenEx 2个月前01190
新型Transformer框架Gaze-LLE:用于估计人在场景中注视的目标位置 佐治亚理工学院和伊利诺伊大学厄巴纳-香槟分校的研究人员推出新型Transformer框架,它用于估计人在场景中注视的目标位置。这项技术的核心在于预测一个人在观看什么,这需要对个体的外观和场景内容进行推... 新技术# Gaze-LLE 2个月前01220
Long Volumetric Video:高效地表示和渲染长时间的体积视频 浙江大学、斯坦福大学和香港科技大学的研究人员发布论文,主题是关于如何高效地表示和渲染长时间的体积视频(Long Volumetric Video)。体积视频是一种能够从多个视角捕捉动态场景并提供自由视... 新技术# EasyVolcap# longvolcap# 体积视频 2个月前01250