新型多模态图像生成系统MUMU:从文本和图像混合提示生成图像来自萨特希尔风险投资公司的研究人员推出新型多模态图像生成系统MUMU,MUMU的核心能力是从文本和图像混合提示(multimodal prompts)生成图像。简单来说,用户可以提供一些文本描述和参考...新技术# MUMU# 多模态图像生成1年前05130
新型视频扩展方法Follow-Your-Canvas:能够将现有视频的内容扩展到更高的分辨率,并在扩展区域生成丰富的新内容腾讯混元、香港科技大学、中国科学技术大学和清华大学的研究人员推出新型视频扩展方法Follow-Your-Canvas,它能够将现有视频的内容扩展到更高的分辨率,并在扩展区域生成丰富的新内容。这种方法特...新技术# Follow-Your-Canvas# 视频扩展1年前05110
一种无需额外训练和条件约束的新方法SEG:利用了自我注意力机制的能量视角来改进图像生成高丽大学的研究人员推出一种无需额外训练和条件约束的新方法SEG(Smoothed Energy Guidance,平滑能量指导),它利用了自我注意力机制的能量视角来改进图像生成。例如,你有一个魔法画笔...新技术# SEG# 平滑能量指导1年前05110
新型图像编辑工具StyleFeatureEditor:结合了AI的最新进展,使用户能够以前所未有的细节级别和灵活性来编辑图像俄罗斯高等经济大学、AIRI和德国不来梅建筑大学的研究人员推出新型图像编辑工具StyleFeatureEditor,它是基于一种名为StyleGAN的生成对抗网络(GAN)的。StyleGAN是一种特...新技术# StyleFeatureEditor# 图像编辑2年前05110
新型文生图模型CountGen:根据文本提示准确地生成指定数量的对象巴伊兰大学、英伟达和特拉维夫大学的研究人员推出新型文生图模型CountGen,它能够根据文本提示准确地生成指定数量的对象。在以往的技术中,尽管文本到图像的扩散模型取得了巨大成功,但它们在控制生成图像中...新技术# CountGen# 文生图模型2年前05110
阿里推出高清长视频生成方法EasyAnimate:基于Transformer架构,能够高效地制作出高质量的视频内容阿里推出先进视频生成方法EasyAnimate,它基于Transformer架构,能够高效地制作出高质量的视频内容,目前EasyAnimate已能展现出生成包含144帧视频的能力。例如,你想要制作一段...新技术# EasyAnimate# 长视频生成1年前05110
Gempix现身Whisk!谷歌测试基于Imagen 4的精准图像编辑功能据最新代码线索显示,谷歌正在为其AI图像工具 Whisk 测试一项名为 Gempix 的新功能,该功能可能代表基于 Imagen 4 的新一代图像编辑模型。 这一发现来自 Google Labs 实验...早报# Gempix# Imagen 4# Whisk4个月前05100
Face-Adapter:专为预训练扩散模型设计的高效且有效的适配器,用于实现高精度和高保真的面部编辑来自浙江大学、腾讯、 VIVO和南洋理工大学的研究人员推出Face-Adapter,这是一个专为预训练扩散模型设计的高效且有效的适配器,用于实现高精度和高保真的面部编辑。经过观察,开发人员发现无论是人...新技术# Face-Adapter# 适配器# 面部编辑2年前05100
苹果推出新预训练方法CLOC:提升图像和文本表示的预训练效果,特别是在局部区域的语义理解方面苹果推出新预训练方法CLOC(对比定位语言-图像预训练),旨在提升图像和文本表示的预训练效果,特别是在局部区域的语义理解方面。CLOC模型可以生成高分辨率、细节丰富的深度图,这些深度图不仅包含整体图像...新技术# CLOC# 对比定位语言-图像预训练# 苹果1年前05090
基于扩散模型的2D虚拟试穿框架OutfitAnyone:通过上传自己的照片和想要试穿的衣服图片,就能在线看到衣服穿在自己身上的样子阿里巴巴和中国科学技术大学的研究人员推出新的虚拟试穿技术OutfitAnyone,它是一个基于扩散模型的2D虚拟试穿框架。Outfit Anyone 通过利用双流条件扩散模型解决了这些局限性,使其能够...新技术# OutfitAnyone# 虚拟试穿1年前05070
如何在 Windows 11 上启用或禁用 Copilot 的“Alt + 空格键”语音快捷键Windows 11 的 Copilot 应用最近引入了一个便捷的“Alt + 空格键”快捷键功能,允许用户通过“按下说话”或“按住说话”与聊天机器人互动。这一功能从版本 1.25024.100.0 ...教程# Copilot# Windows 11# 语音9个月前05050
适用于FLUX 和 SD3.5模型的新采样器Style-Friendly SNR:更好地捕捉独特的风格,并生成风格对齐度更高的图像近年来,大型扩散模型在生成高质量图像方面取得了显著进展。然而,这些模型在学习新的、个性化的艺术风格方面存在困难,这限制了独特风格模板的创建。传统的微调方法通常盲目地利用预训练中使用的目标和噪声水平分布...新技术# Style-Friendly SNR# 采样器1年前05030