新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

GenEx：从单张RGB图像生成一个可探索的3D一致性虚拟环境

理解、导航和探索三维物理现实世界一直是人工智能（AI）领域的一个核心挑战。传统的方法通常依赖于传感器数据（如摄像头、激光雷达等）来构建环境的即时感知，但这限制了代理在未见区域的预测能力和决策效率。为了...

新技术 # GenEx

1年前

02850

新型Transformer框架Gaze-LLE：用于估计人在场景中注视的目标位置

佐治亚理工学院和伊利诺伊大学厄巴纳-香槟分校的研究人员推出新型Transformer框架，它用于估计人在场景中注视的目标位置。这项技术的核心在于预测一个人在观看什么，这需要对个体的外观和场景内容进行推...

新技术 # Gaze-LLE

1年前

02950

Long Volumetric Video：高效地表示和渲染长时间的体积视频

浙江大学、斯坦福大学和香港科技大学的研究人员发布论文，主题是关于如何高效地表示和渲染长时间的体积视频（Long Volumetric Video）。体积视频是一种能够从多个视角捕捉动态场景并提供自由视...

新技术 # EasyVolcap # longvolcap # 体积视频

1年前

04200

Meta开源的人体动作生成模型Meta Motivo：生成符合物理规律的复杂的全身动作

Meta Motivo 是一个创新的行为基础模型，旨在通过一种新的无监督强化学习（RL）算法——前向-后向表示与条件策略正则化（FB-CPR），来控制复杂虚拟人形代理的运动。该模型能够在测试时通过提示...

新技术 # Meta Motivo

1年前

03470

FireFlow：用于快速反转和编辑图像语义内容，提高图像生成和编辑的效率和准确性

尽管带有蒸馏的校正流（ReFlows）为快速采样提供了一种有前景的方法，但其快速反演过程——即将图像转换回结构化噪声以进行恢复和后续编辑——仍然面临挑战。具体来说，传统的ReFlow方法在反演过程中可...

新技术 # FireFlow # 图像生成

1年前

03900

图像超分辨率技术InvSR：基于扩散反转（Diffusion Inversion）来提高图像的分辨率

南洋理工大学（NTU）S-Lab提出了一种新的图像超分辨率（Super-Resolution, SR）技术——InvSR，旨在利用大型预训练扩散模型中封装的丰富图像先验来提高SR性能。传统的超分辨率方...

新技术 # InvSR # 图像超分辨率

1年前

04060

多概念图像生成方法LoRACLR：在单一模型中合并多个特定概念（如人物、物体或艺术风格）并生成多概念图像

近年来，文本到图像定制技术的进步使得个性化图像的高保真、内容丰富的生成成为可能，允许特定概念在各种场景中出现。然而，当前的方法在结合多个个性化模型时面临挑战，常常导致属性纠缠（即不同概念之间的混淆）或...

新技术 # LoRACLR # 多概念图像

1年前

02720

OLA-VLM：提升多模态大语言模型中的视觉感知能力

开发当代多模态大语言模型（MLLMs）的标准做法是将视觉编码器的特征输入到大型语言模型（LLM）中，并通过自然语言监督进行训练。然而，这种方法存在一个潜在的局限性：仅依赖自然语言监督对于MLLM的视觉...

新技术 # OLA-VLM # 多模态大语言模型

1年前

02760

文生图模型SnapGen：能够在移动平台上生成高分辨率和高品质的图像

现有的文本到图像（T2I）扩散模型虽然在生成高质量图像方面表现出色，但面临着几个关键挑战：模型尺寸大：许多先进的T2I模型包含数十亿个参数，导致存储和部署成本高昂。运行时间慢：生成高分辨率图像通常...

新技术 # SnapGen # 文生图模型

1年前

03230

Neural LightRig：从单张图片中准确估计物体的表面法线（normals）和物理基础渲染（PBR）材料

香港中文大学、上海AI实验室和南洋理工大学的研究人员推出新型框架Neural LightRig，它能够从单张图片中准确估计物体的表面法线（normals）和物理基础渲染（PBR）材料。这个框架通过利用...

新技术 # Neural LightRig

1年前

03450

Track4Gen：用于视频生成的空间感知视频生成器

Adobe 研究中心、韩国科学技术院和伦敦大学学院的研究人员推出Track4Gen，这是一个用于视频生成的空间感知视频生成器，它结合了视频扩散损失和跨帧点跟踪，提供了对扩散特征的空间监督，以增强视...

新技术 # Track4Gen

1年前

03210

文本驱动的风格迁移方法StyleStudio：根据文本提示将特定风格的参考图像与目标内容图像结合起来

西湖大学 AGI 实验室、复旦大学、南洋理工大学和香港科技大学（广州）的研究人员推出文本驱动的风格迁移方法StyleStudio，它可以根据文本提示将特定风格的参考图像与目标内容图像结合起来。这种方法...

新技术 # StyleStudio # 风格迁移

1年前

02930

加载更多