新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

图像编辑技术Editable Image Elements：允许用户对输入的图像进行空间编辑，同时保持图像内容的逼真度

来自加州大学圣地亚哥分校和Adobe 研究中心的研究人员推出新的图像编辑技术Editable Image Elements for Controllable Synthesis，它允许用户对输入的...

2年前

07020

新颖图像和视频处理框架MaGGIe：用于实现人类图像的精确分割，从图像和视频中提取人物前景

来自马里兰大学和Adobe的研究人员推出新的图像和视频处理技术MaGGIe（Masked Guided Gradual Human Instance Matting），它用于实现人类图像的精确分割...

新技术 # MaGGIe # 图像分割 # 抠图

2年前

06070

弱监督方法CatLIP：用于在互联网规模的图像-文本数据上预训练视觉模型

苹果推出新颖的弱监督方法CatLIP（Categorical Loss for Image-text Pre-training），旨在提高图像和文本数据集上的视觉模型预训练效率，同时保持与现有的对比学...

新技术 # CatLIP # CLIP # 弱监督

2年前

08020

混合数据专家MoDE：通过聚类方法来提升对比语言-图像预训练（CLIP）的性能

来自Meta、哥伦比亚大学、纽约大学和华盛顿大学的研究人员推出机器学习系统MoDE（Mixture of Data Experts，混合数据专家），它通过聚类方法来提升对比语言-图像预训练（CLIP...

新技术 # CLIP # MoDE # 混合数据专家

2年前

06110

ConsistentID：生成个性化人像图像时保持高度的面部身份（ID）一致性

来自中山大学深圳校区、中山大学珠海校区、联想研究院和阿联酋起源人工智能研究院推出ConsistentID，它能够在生成个性化人像图像时保持高度的面部身份（ID）一致性。ConsistentID的核心...

新技术 # ConsistentID # 个性化人像

2年前

01,1600

谷歌推出基于问答的自动评估指标Gecko，用于评估文生图模型的性能

谷歌推出基于问答的自动评估指标Gecko2K，用于评估文生图模型的性能。文生图模型生成的图像并不总是能够完全符合文本中的所有细节。因此，评估这些模型生成的图像与文本描述的匹配程度是一个重要的研究问题...

新技术 # Gecko # Gecko2K # 自动评估

2年前

06680

采样调节器AlignYouSteps：优化采样步骤，从而提高生成图像的细节和质量

英伟达、多伦多大学和矢量研究所的研究人员推出新的采样调节器AlignYouSteps（调整步伐），用于优化采样步骤，从而提高生成图像的细节和质量。这是一种通用且原则性的方法，用于优化扩散模型的采样计划...

新技术 # AlignYouSteps # 英伟达 # 采样调节器

2年前

09130

无需调整的高分辨率框架HiDiffusion：只需添加一行代码即可提高扩散模型（Stable Diffusion）在生成高分辨率图像方面的能力和效率

旷视科技与字节跳动的研究人员推出新型框架HiDiffusion，只需添加一行代码即可提高扩散模型（Stable Diffusion）在生成高分辨率图像方面的能力和效率。现有的扩散模型在生成超出训练时所...

新技术 # HiDiffusion # Stable Diffusion # 高分辨率框架

2年前

07680

微软推出小型语言模型Phi-3系列：可在手机端运行的大模型

微软推出小型语言模型Phi-3系列，它在性能上可以与一些大型模型相媲美，如Mixtral 8x7B和GPT-3.5，但大小却足以部署在手机上。这项技术的创新之处在于其训练数据集，这是phi-2数据集的...

新技术 # Phi-3 # 微软

2年前

05320

虚拟服装试穿技术IDM-VTON：根据一个人的图片和一件衣服的图片，生成这个人穿上这件衣服的图像

来自韩国科学技术院和OMNIOUS.AI的研究人员推出虚拟服装试穿技术IDM-VTON，该技术能够根据分别描绘人物和服装的图像对，渲染出人物穿着精选服装的视觉效果。虚拟试穿是一种计算机视觉技术，它可以...

新技术 # IDM-VTON # 虚拟服装试穿 # 虚拟试穿

2年前

08680

多概念定制技术MultiBooth：根据用户的文本描述生成包含多个特定元素的图像

清华大学和Meta的研究人员推出新颖且高效的多概念定制技术MultiBooth，此技术用于从文本生成图像时实现多概念定制。简单来说，MultiBooth能够根据用户的文本描述生成包含多个特定元素的图像...

新技术 # MultiBooth # 多概念定制技术

2年前

08050

腾讯推出多模态基础模型SEED-X：结合视觉和语言理解的能力，可以处理和生成各种类型的数据，包括图像和文本

腾讯AI实验室和ARC实验室共同开发的多模态基础模型SEED-X，这是一个先进的人工智能系统，它结合了视觉和语言理解的能力，可以处理和生成各种类型的数据，包括图像和文本。简单来说，SEED-X就像一个...

新技术 # SEED-X # 多模态基础模型

2年前

05720

加载更多