苹果推出新预训练方法CLOC:提升图像和文本表示的预训练效果,特别是在局部区域的语义理解方面苹果推出新预训练方法CLOC(对比定位语言-图像预训练),旨在提升图像和文本表示的预训练效果,特别是在局部区域的语义理解方面。CLOC模型可以生成高分辨率、细节丰富的深度图,这些深度图不仅包含整体图像...新技术# CLOC# 对比定位语言-图像预训练# 苹果1年前05160
苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro,它用于提高单目深度估计的准确性和细节表现。单目深度估计是指仅使用一个摄像头拍摄的单张图片来预测场景中每个像素的深度信息。例如,你用手...新技术# Depth Pro# 苹果1年前04650
苹果推出新型图像生成模型Kaleido Diffusion:通过整合自回归的潜在先验来增强采样的图像多样性苹果和弗吉尼亚理工大学的研究人员推出新型图像生成模型Kaleido Diffusion,此模型旨在通过自回归潜在模型(autoregressive latent modeling)提高扩散模型(dif...新技术# Kaleido Diffusion# 图像生成模型# 苹果2年前05690
苹果推出开源图像编辑模型MGIE:通过文字提示来编辑任何图像来自苹果的团队推出开源图像编辑模型MGIE(MLLM-Guided Image Editing),它旨在通过使用多模态大语言模型(MLLMs)来提升基于指令的图像编辑能力。简单来说,MGIE可以帮助用...新技术# MGIE# 图像编辑# 苹果2年前05650
谷歌研究团队推出专为移动设备打造的文生图模型MobileDiffusion谷歌的研究团队推出了新的文生图模型MobileDiffusion,它能够在手机上几乎瞬间(亚秒级)生成高质量的图片。该模型在架构和采样技术方面进行广泛优化,在iPhone 15 Pro上,Mobile...新技术# MobileDiffusion# 安卓# 扩散模型2年前07730