全新开源背景移除模型ormbg:专门针对含有人物的图像进行了优化

ormbg是一个基于基于高度准确的二分类图像分割(DIS)的全新开源背景移除模型,它专门针对含有人物的图像进行了优化,此模型类似于 RMBG-1.4,但提供了开放的训练数据和流程,且商业使用免费。它提供了训练数据和流程的详细信息,并且商业使用完全免费。

ormbg是在Human Segmentation Dataset数据集上进行训练的。经过在单个英伟达GeForce RTX 4090显卡上的10,000次迭代后,它取得了令人瞩目的成果:训练时间仅需8小时,训练损失低至0.1179,验证损失为0.1284,最大F1分数高达0.9928,平均绝对误差仅为0.005。

图像二类分割(Dichotomous Image Segmentation,简称DIS)是由穆罕默德·本·扎耶德人工智能大学、腾讯优图实验室、苏黎世联邦理工学院和特斯联科技集团的研究人员推出,这是一种高精度图像处理技术。这项技术的目标是从自然图像中精确地分割出物体,无论是显著的、伪装的或是结构复杂的物体,都能被准确地识别和分离出来。

例如,你有一张包含许多不同物体的照片,比如一张森林的照片,里面有树木、动物、天空和地面。图像二类分割技术就像一个超级放大镜和精准的剪刀,可以帮助我们从这张照片中把每一棵树、每一只动物甚至天空和地面都完美地分割出来,不管它们在照片中是大是小,是明显还是难以察觉。

主要功能:

  • 高精度分割:能够精确地识别和分割图像中的各种物体。
  • 鲁棒性强:即使在物体被遮挡或与背景融为一体的情况下,也能保持高准确度。

主要特点:

  1. 大规模数据集DIS5K:研究者创建了一个包含5470张高分辨率图像的数据集,这些图像覆盖了各种背景和复杂结构的物体。
  2. 中间监督基线IS-Net:提出了一个基于中间监督的简单网络,通过特征级和掩码级指导来训练DIS模型。
  3. 人工矫正量(HCE):设计了一个新的评估指标,用于衡量模型预测与现实应用之间的差距。

工作原理:

  1. 数据收集与标注:首先手动收集大量图片,并进行像素级精度的手工标记。
  2. 特征提取:使用深度学习模型从图像中提取特征。
  3. 中间监督:在训练过程中,通过比较网络中间层的输出与真实标签的编码表示,来引导和优化模型的学习。
  4. 特征同步:通过特征同步机制,确保网络学习到的特征能够与目标物体的细节紧密对齐。
  5. 评估与优化:使用人工矫正量(HCE)等指标来评估分割结果,并据此优化模型。

具体应用场景:

  1. 图像编辑:在图像编辑软件中,可以利用这项技术来精确地选取和编辑图像中的特定物体。
  2. 增强现实(AR)/虚拟现实(VR):在AR/VR应用中,精确的物体分割可以帮助创建更加真实的交互环境。
  3. 医学图像分析:在医学领域,这项技术可以用来精确地分割医学图像,辅助医生进行诊断。
  4. 机器人操作:在机器人视觉系统中,精确的物体分割有助于机器人更好地理解其工作环境,进行精确操作。
0

评论0

没有账号?注册  忘记密码?