苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro

新技术2年前发布小马良

468 0

苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro，它用于提高单目深度估计的准确性和细节表现。单目深度估计是指仅使用一个摄像头拍摄的单张图片来预测场景中每个像素的深度信息。例如，你用手机拍了一张风景照片，照片中有山、树和建筑物。Depth Pro这个模型能够分析这张照片，并为照片中的每个像素点计算出它的深度信息，即它距离相机有多远。这样，你就可以利用这个深度信息来做一些有趣的事情，比如重新对焦照片，或者创建一个3D模型。

GitHub：https://github.com/apple/ml-depth-pro

Depth Pro能够合成具有无与伦比的清晰度和高频细节的高分辨率深度图。这些预测是度量的，具有绝对尺度，不依赖于相机内参等元数据的可用性。并且该模型速度快，在标准GPU上0.3秒内就能生成一张2.25兆像素的深度图。这些特性是由包括用于密集预测的高效多尺度视觉变换器、结合真实和合成数据集以实现高度量精度和精细边界追踪的训练协议、用于估计深度图边界精度的专用评估指标以及从单张图像估计焦距的最先进技术在内的多项技术贡献所实现的。

主要功能

Depth Pro的主要功能是生成高分辨率、高细节的深度图，这些深度图可以用来：

提升图像编辑的质量。
合成新视角的视图。
进行条件图像生成。

主要特点

零样本学习：不需要针对特定场景训练，就能处理任意图片。
高分辨率输出：能够生成高达2.25百万像素的深度图。
快速生成：在标准GPU上，0.3秒内就能生成一张深度图。
无需相机内参：不需要相机的焦距等信息就能生成绝对尺度的深度图。

工作原理

Depth Pro使用了一种叫做“自适应投影引导”（Adaptive Projected Guidance, APG）的技术，它通过以下步骤来提高深度估计的质量：

多尺度视觉Transformer：同时考虑图像的全局上下文和局部细节。
结合真实与合成数据的训练协议：通过这种方式，模型能够学习到更准确的度量尺度和细节边界。
边界精度的评估指标：专门设计的指标来评估深度图中边界的准确性。
单图像焦距估计：能够从单张图片中估计出相机的焦距。

具体应用场景

图像编辑：比如在照片编辑软件中，利用深度信息来实现背景虚化或者3D效果。
虚拟现实和增强现实：在VR/AR应用中，通过深度信息来模拟真实的视角变化。
3D建模：使用深度图来重建现实世界的三维模型。
艺术创作：比如将普通照片转换成水彩画风格的图像，同时保持原有的深度感。

总的来说，Depth Pro是一个强大的工具，它可以从单张图片中提取出丰富的深度信息，为各种应用提供支持。

新技术 # Depth Pro # 苹果

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

多模态大语言模型Omni-RGPT：在统一图像和视频的区域级理解

多模态大语言模型Omni-RGPT：在统一图像和视频的区域级理解

新技术 # Omni-RGPT # 多模态大语言模型

1年前

02600

CUDA Agent：字节与清华联手打造，AI 首次超越工业级编译器，自动编写高性能 GPU 内核

CUDA Agent：字节与清华联手打造，AI 首次超越工业级编译器，自动编写高性能 GPU 内核

新技术 # CUDA Agent # CUDA 内核

4周前

0490

字节跳动推出人像动画技术X-Portrait 2：创建富有表现力和逼真的角色动画和视频素材

字节跳动推出人像动画技术X-Portrait 2：创建富有表现力和逼真的角色动画和视频素材

新技术 # X-Portrait 2 # 人像动画 # 字节跳动

1年前

03960

谷歌推出CamViG：控制视频生成过程中的相机视角，从而生成具有精确相机运动的视频

谷歌推出CamViG：控制视频生成过程中的相机视角，从而生成具有精确相机运动的视频

新技术 # CamViG # 相机运动 # 谷歌

2年前

07390

暂无评论

none

暂无评论...