深度估算模型Depth Anything：让照片自动感知空间距离

新技术10个月前更新小马良

453 0

来自香港大学、TikTok、浙江实验室、浙江大学的研究人员推出了深度估算模型 Depth Anything，它是一个用于单目深度估计（Monocular Depth Estimation, MDE）的实用解决方案。

项目主页：https://depth-anything.github.io
GitHub：https://github.com/LiheYoung/Depth-Anything
图片Demo：https://huggingface.co/spaces/LiheYoung/Depth-Anything
视频Demo：https://huggingface.co/spaces/JohanDL/Depth-Anything-Video
模型地址：https://huggingface.co/spaces/LiheYoung/Depth-Anything

这个模型的目标是在任何情况下都能对任何图像进行准确的深度估计。为了实现这一目标，研究者们通过设计一个数据引擎来收集和自动标注大规模的未标记数据（约6200万张），从而显著扩大了数据覆盖范围，减少了泛化误差。

他们还探索了两种简单但有效的策略来充分利用这些数据，包括通过数据增强工具创建更具挑战性的优化目标，以及开发辅助监督来使模型从预训练编码器中继承丰富的语义先验知识。

主要功能：

提供准确的单目深度估计，即使在没有深度标签的情况下也能对图像进行深度预测。

在多个公共数据集和随机捕获的照片中展示了出色的泛化能力。

主要特点：

利用大规模未标记数据进行训练，提高了模型的泛化能力和鲁棒性。

在学习未标记图像时，通过引入强扰动来挑战学生模型，迫使其学习更强大的视觉知识。

使用辅助特征对齐损失来保留预训练编码器的丰富语义先验知识。

工作原理：

首先，研究者们从六个公共数据集中收集了150万张标记图像来训练一个初始的深度估计模型。

然后，使用这个模型为6200万张未标记图像生成伪深度标签，这些图像来自八个大规模的公共数据集。

最后，在一个自训练的方式中，将标记集和伪标记集合并，训练一个学生模型。

应用场景：

在机器人技术、自动驾驶、虚拟现实等领域，Depth Anything可以用于估计场景的深度信息，帮助机器人导航或车辆理解周围环境。

在计算机视觉研究中，这个模型可以作为一个基础模型，用于开发更高级的视觉任务，如图像分割、3D重建等。

在内容创作和娱乐领域，Depth Anything可以帮助生成具有深度信息的图像和视频，用于增强现实（AR）和虚拟现实（VR）应用。

Depth Anything通过利用大规模未标记数据和先进的训练策略，展示了在单目深度估计任务上的突破性进展，尤其是在零样本（zero-shot）场景下的泛化能力。

文章版权归作者所有，未经允许请勿转载。

新型多镜头视频生成框架VGoT：专门针对多镜头视频生成任务设计

新技术 # VGoT # 多镜头视频

4个月前

01220

3D内容生成框架DreamGaussian：提高基于图像和文本生成3D模型的效率和质量

新技术 # 3D内容生成框架 # DreamGaussian

1年前

03750

零样本视频恢复DiffIR2VR-Zero：将低质量的视频转换成高质量的视频

新技术 # DiffIR2VR-Zero # 视频恢复

9个月前

06030

高通AI研究院推出专为移动设备优化的视频编辑模型MoViE：能够在手机上实现每秒12帧的快速视频编辑

新技术 # MoViE # 视频编辑模型 # 高通

4个月前

01350

暂无评论

暂无评论...

深度估算模型Depth Anything：让照片自动感知空间距离

主要功能：

主要特点：

工作原理：

应用场景：

AI视频生成模型Animated Stickers：让静态表情包动起来

AI动画生成框架Keyframer：利用GPT4生成动画

相关文章

新型多镜头视频生成框架VGoT：专门针对多镜头视频生成任务设计

3D内容生成框架DreamGaussian：提高基于图像和文本生成3D模型的效率和质量

零样本视频恢复DiffIR2VR-Zero：将低质量的视频转换成高质量的视频

高通AI研究院推出专为移动设备优化的视频编辑模型MoViE：能够在手机上实现每秒12帧的快速视频编辑

暂无评论

文章

新微软将AI功能扩展至配备英特尔和AMD处理器的Copilot+ PC

新ElevenLabs发布全球首个AI“狗语”TTS模型Text To Bark，开启跨物种沟通新时代？

新ChatGPT 即将更新：推理滑块、记忆功能与语音输入等功能

新阿里云联合国家天文台发布国际首个太阳大模型“金乌”，太阳耀斑预报准确率超91%

新ComfyUI-Manager 加入 Comfy-Org：自定义节点体验全面升级

新海螺语音海外版MiniMax Audio发布全新模型Speech-02 ：超现实 TTS，多语言无缝切换

朱雀大模型检测

野卡

Yourware.so

FaceShapes

Google AI Studio

Qwen Chat

深度估算模型Depth Anything：让照片自动感知空间距离

主要功能：

主要特点：

工作原理：

应用场景：

AI视频生成模型Animated Stickers：让静态表情包动起来

AI动画生成框架Keyframer：利用GPT4生成动画

相关文章

文章

标签云

网址

朱雀大模型检测

野卡

Yourware.so

FaceShapes

Google AI Studio

Qwen Chat