Meta推出多模态基础模型家族Chameleon:专为理解和生成图像与文本而设计Meta推出多模态基础模型家族Chameleon,它们是专为理解和生成图像与文本而设计,多模态意味着这些模型能够同时处理多种类型的数据,比如图片和文字。例如,你给Chameleon一个描述或者一张图片...新技术# Chameleon# Meta# 多模态基础模型2年前08330
在文生图模型中应用Guidance技术的方法来自阿尔托大学和英伟达的研究人员发布论文探讨了在文生图模型中应用指导(Guidance)技术的方法,作者通过实验表明,限制指导区间的方法在ImageNet-512数据集上将FID(一种衡量图像质量的指...科普# CFG Scale# Guidance2年前08310
新型图像生成模型FiT:基于Transformer架构,可以生成无限制分辨率和长宽比的图像FiT(Flexible Vision Transformer)是一款新型图像生成模型,基于Transformer架构,旨在生成具有无限制分辨率和长宽比的图像。 GitHub 论文 模型 传统的图像生...新技术# FiT# Transformer# 图像生成模型2年前08310
虚拟服装试穿工具OOTDiffusion:革新你的虚拟试衣体验OOTDiffusion是一款开源虚拟服装试穿工具,它利用潜在扩散模型(latent diffusion models)的强大能力实现了前所未有的高精度和可控性试穿体验。 GitHub:https...新技术# OOTDiffusion# 虚拟服装2年前08300
新型视频生成框架ConFiner:结合多个专家模型的能力,以一种高效且无需训练的方式,生成高质量且连贯的视频内容悉尼大学、东南大学、中南大学、上海交通大学、商汤科技研究院和香港科技大学的研究人员推出新型视频生成框架ConFiner,它通过一系列现成的扩散模型专家(diffusion model experts...新技术# ConFiner# 视频生成2年前08290
文生视频模型VSTAR:解决现有开源T2V模型难以生成内容动态变化和较长视频的问题来自博世人工智能中心、曼海姆大学、马克斯·普朗克信息学研究所和图宾根大学的研究团队推出VSTAR,这是一种用于生成动态视频的文本到视频(T2V)合成技术。VSTAR的目标是解决现有开源T2V模型难以生...新技术# VSTAR# 文生视频模型2年前08290
新型实时一步潜在扩散模型SDXS:在图像生成任务中显著提高效率,同时保持图像质量小米推出新型实时一步潜在扩散模型SDXS,它能够在图像生成任务中显著提高效率,同时保持图像质量。SDXS模型通过模型小型化和减少采样步骤的双重方法,显著降低了模型的延迟,使其能够在低功耗设备上实时生成...新技术# SDXS# 一步潜在扩散模型1年前08280
语音驱动人脸说话生成框架AVCT来自网易伏羲AI实验室、悉尼科技大学的研究人员推出了从单人音频生成单人说话脸部的框架Audio-Visual Correlation Transformer (AVCT),它能够从单个说话者的音频-视...新技术# AVCT2年前08280
独特视角SDXL Lora:Head POVHead POV是一个视角SDXL Lora,这一视角的独特之处在于,它是以动物的后脑勺为观察点。尽管初版模型训练数据相对较少,可能导致生成的图片并不完美,但作者已经计划扩充数据集,并对图像位置信息进...百科# Head POV# SDXL Lora# 视角2年前08260
英伟达GeForce RTX 4090 D对于AI绘画来说,其实最具“性价比”的显卡就是英伟达RTX 4090,作为英伟达民用顶级显卡,目前可运行绝大多数已开源的AI应用,以至于美国政府都对RTX 4090采取了限制措施,那就是无法出口到中国...硬件# RTX 4090# RTX 4090 D# 英伟达2年前08250
新型AI方法DIVA:使用扩散模型作为 CLIP 视觉辅助中国科学院自动化研究所、中国科学院大学人工智能学院、北京人工智能研究院 和北京交通大学的研究人员推出新型人工智能方法DIVA,它旨在提升一种流行的图像和语言联合预训练模型CLIP的视觉识别能力。CLI...新技术# CLIP 视觉辅助# DIVA2年前08240
EmoKnob:允许在语音合成中对任意情感进行细粒度控制的框架哥伦比亚大学的研究人员推出一个允许在语音合成中对任意情感进行细粒度控制的框架EmoKnob,它用于提升语音克隆技术,只需少量示 范样本,允许用户在语音合成中精细控制情感及其强度。简单来说,EmoKno...新技术# EmoKnob# 语音克隆2年前08230