谷歌研究团队推出专为移动设备打造的文生图模型MobileDiffusion 谷歌的研究团队推出了新的文生图模型MobileDiffusion,它能够在手机上几乎瞬间(亚秒级)生成高质量的图片。该模型在架构和采样技术方面进行广泛优化,在iPhone 15 Pro上,Mobile... 新技术# MobileDiffusion# 安卓# 扩散模型 1年前04830
苹果推出开源图像编辑模型MGIE:通过文字提示来编辑任何图像 来自苹果的团队推出开源图像编辑模型MGIE(MLLM-Guided Image Editing),它旨在通过使用多模态大语言模型(MLLMs)来提升基于指令的图像编辑能力。简单来说,MGIE可以帮助用... 新技术# MGIE# 图像编辑# 苹果 1年前03760
苹果推出新型图像生成模型Kaleido Diffusion:通过整合自回归的潜在先验来增强采样的图像多样性 苹果和弗吉尼亚理工大学的研究人员推出新型图像生成模型Kaleido Diffusion,此模型旨在通过自回归潜在模型(autoregressive latent modeling)提高扩散模型(dif... 新技术# Kaleido Diffusion# 图像生成模型# 苹果 9个月前03610
苹果推出新预训练方法CLOC:提升图像和文本表示的预训练效果,特别是在局部区域的语义理解方面 苹果推出新预训练方法CLOC(对比定位语言-图像预训练),旨在提升图像和文本表示的预训练效果,特别是在局部区域的语义理解方面。CLOC模型可以生成高分辨率、细节丰富的深度图,这些深度图不仅包含整体图像... 新技术# CLOC# 对比定位语言-图像预训练# 苹果 5个月前02990
苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro 苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro,它用于提高单目深度估计的准确性和细节表现。单目深度估计是指仅使用一个摄像头拍摄的单张图片来预测场景中每个像素的深度信息。例如,你用手... 新技术# Depth Pro# 苹果 5个月前02780
苹果推出基于最优传输理论的通用框架ACT:用于控制大型生成模型的生成过程 大型生成模型(如大语言模型LLMs和文本到图像扩散模型T2Is)的能力不断增强,但其日益广泛的部署也引发了对可靠性和安全性的担忧。为了解决这些问题,研究人员提出了通过引导模型激活来控制模型生成的方法,... 新技术# ACT# 大语言模型# 文生图模型 4个月前02200
苹果推出用于文本和图像条件下的视频生成新方法STIV 苹果公司介绍了一个名为STIV(Scalable Text and Image Conditioned Video Generation)的系统,它是一种用于文本和图像条件下的视频生成方法。STIV系... 新技术# STIV# 苹果 2个月前01190