GenEx:从单张RGB图像生成一个可探索的3D一致性虚拟环境理解、导航和探索三维物理现实世界一直是人工智能(AI)领域的一个核心挑战。传统的方法通常依赖于传感器数据(如摄像头、激光雷达等)来构建环境的即时感知,但这限制了代理在未见区域的预测能力和决策效率。为了...新技术# GenEx1年前02810
新型Transformer框架Gaze-LLE:用于估计人在场景中注视的目标位置佐治亚理工学院和伊利诺伊大学厄巴纳-香槟分校的研究人员推出新型Transformer框架,它用于估计人在场景中注视的目标位置。这项技术的核心在于预测一个人在观看什么,这需要对个体的外观和场景内容进行推...新技术# Gaze-LLE12个月前02760
Long Volumetric Video:高效地表示和渲染长时间的体积视频浙江大学、斯坦福大学和香港科技大学的研究人员发布论文,主题是关于如何高效地表示和渲染长时间的体积视频(Long Volumetric Video)。体积视频是一种能够从多个视角捕捉动态场景并提供自由视...新技术# EasyVolcap# longvolcap# 体积视频1年前03780
Meta开源的人体动作生成模型Meta Motivo:生成符合物理规律的复杂的全身动作Meta Motivo 是一个创新的行为基础模型,旨在通过一种新的无监督强化学习(RL)算法——前向-后向表示与条件策略正则化(FB-CPR),来控制复杂虚拟人形代理的运动。该模型能够在测试时通过提示...新技术# Meta Motivo1年前03280
FireFlow:用于快速反转和编辑图像语义内容,提高图像生成和编辑的效率和准确性尽管带有蒸馏的校正流(ReFlows)为快速采样提供了一种有前景的方法,但其快速反演过程——即将图像转换回结构化噪声以进行恢复和后续编辑——仍然面临挑战。具体来说,传统的ReFlow方法在反演过程中可...新技术# FireFlow# 图像生成1年前03520
图像超分辨率技术InvSR:基于扩散反转(Diffusion Inversion)来提高图像的分辨率南洋理工大学(NTU)S-Lab提出了一种新的图像超分辨率(Super-Resolution, SR)技术——InvSR,旨在利用大型预训练扩散模型中封装的丰富图像先验来提高SR性能。传统的超分辨率方...新技术# InvSR# 图像超分辨率1年前03670
多概念图像生成方法LoRACLR:在单一模型中合并多个特定概念(如人物、物体或艺术风格)并生成多概念图像近年来,文本到图像定制技术的进步使得个性化图像的高保真、内容丰富的生成成为可能,允许特定概念在各种场景中出现。然而,当前的方法在结合多个个性化模型时面临挑战,常常导致属性纠缠(即不同概念之间的混淆)或...新技术# LoRACLR# 多概念图像1年前02660
OLA-VLM:提升多模态大语言模型中的视觉感知能力开发当代多模态大语言模型(MLLMs)的标准做法是将视觉编码器的特征输入到大型语言模型(LLM)中,并通过自然语言监督进行训练。然而,这种方法存在一个潜在的局限性:仅依赖自然语言监督对于MLLM的视觉...新技术# OLA-VLM# 多模态大语言模型1年前02650
文生图模型SnapGen:能够在移动平台上生成高分辨率和高品质的图像现有的文本到图像(T2I)扩散模型虽然在生成高质量图像方面表现出色,但面临着几个关键挑战: 模型尺寸大:许多先进的T2I模型包含数十亿个参数,导致存储和部署成本高昂。 运行时间慢:生成高分辨率图像通常...新技术# SnapGen# 文生图模型1年前03180
Neural LightRig:从单张图片中准确估计物体的表面法线(normals)和物理基础渲染(PBR)材料香港中文大学、上海AI实验室和南洋理工大学的研究人员推出新型框架Neural LightRig,它能够从单张图片中准确估计物体的表面法线(normals)和物理基础渲染(PBR)材料。这个框架通过利用...新技术# Neural LightRig1年前03230
Track4Gen:用于视频生成的空间感知视频生成器Adobe 研究中心、韩国科学技术院和伦敦大学学院的研究人员推出Track4Gen,这是一个用于视频生成的空间感知视频生成器,它结合了视频扩散损失和跨帧点跟踪,提供了对扩散特征的空间监督,以增强视...新技术# Track4Gen1年前03020
文本驱动的风格迁移方法StyleStudio:根据文本提示将特定风格的参考图像与目标内容图像结合起来西湖大学 AGI 实验室、复旦大学、南洋理工大学和香港科技大学(广州)的研究人员推出文本驱动的风格迁移方法StyleStudio,它可以根据文本提示将特定风格的参考图像与目标内容图像结合起来。这种方法...新技术# StyleStudio# 风格迁移1年前02770