DiT架构的文生视频模型xGen-VideoSyn-1:根据文本描述生成逼真的视频场景Salesforce推出新的文生视频模型xGen-VideoSyn-1,这个模型能够根据文本描述生成逼真的视频场景,它的设计灵感来源于OpenAI的Sora模型,并在此基础上进行了改进和创新。例如,你...新技术# xGen-VideoSyn# 文生视频模型2年前06550
统一Transformer模型Show-o:同时处理多模态理解(如图像和文本)和生成任务新加坡国立大学和字节跳动的研究人员推出一种统一的Transformer模型Show-o,,它统一了多模态的理解和生成。不同于完全自回归模型,Show-o结合了自回归和(离散)扩散建模,以自适应地处理各...新技术# Show-o# Transformer模型2年前05910
新型文本到图像生成方法FRAP:基于自适应调整每个词汇的提示权重来改善生成图像与提示之间的一致性和真实性阿尔伯塔大学电子与计算机工程系、华为技术加拿大公司和华为麒麟解决方案的研究人员推出新型文本到图像生成方法FRAP,旨在提高由文本提示生成图像的真实性和忠实度,确保生成的图像与文本描述的内容精确匹配。F...新技术# FRAP# 文生图2年前04750
新型文本到图像的扩散模型优化方法迭代对象计数优化:准确地生成指定数量的对象特拉维夫大学和巴伊兰大学的研究人员推出一种新的文本到图像的扩散模型优化方法,这个方法被称为“迭代对象计数优化”(Iterative Object Count Optimization)。这个方法主要解...新技术# 迭代对象计数优化2年前04310
新型视频生成方法TrackGo:根据用户的输入精确控制视频中对象的运动北京航空航天大学和爱诗科技的研究人员推出新型视频生成方法TrackGo,它能够根据用户的输入精确控制视频中对象的运动。这项技术允许用户通过自由形式的遮罩(masks)和箭头来指定目标对象或部分,以及它...新技术# TrackGo# 视频生成2年前04850
Meta推出个性化图像生成模型Imagine yourselfMeta推出个性化图像生成模型Imagine yourself,这个模型的特别之处在于,它不需要针对每个用户进行个性化调整或“调优”,就能够为所有用户提供服务。这就像是有一个智能的画家,无论谁来请求画...新技术# Imagine yourself# Meta# 个性化图像生成模型2年前05620
MegaFusion:将现有的扩散模型扩展到更高分辨率的图像生成,而无需额外的调整或适应上海交通大学、上海人工智能实验室和大连理工大学的研究人员推出MegaFusion,它能够将现有的扩散模型(diffusion models)扩展到更高分辨率的图像生成,而无需额外的调整或适应。具体而言...新技术# MegaFusion2年前07360
多模态模型Transfusion:能够同时处理离散数据(如文本)和连续数据(如图像)Meta、Waymo和南加州大学的研究人员推出多模态模型Transfusion,它能够同时处理离散数据(如文本)和连续数据(如图像)。Transfusion的核心思想是将语言模型的下一个词预测(nex...新技术# Transfusion# 多模态模型2年前07580
无需训练、基于轨迹的可控图像生成技术TraDiffusion:允许用户通过鼠标轨迹来轻松引导图像的生成,而无需进行额外的训练或微调厦门大学和中国科学院大学深圳先进技术研究院的研究人员推出新型图像生成技术TraDiffusion,这项技术的核心在于它允许用户通过鼠标轨迹来轻松引导图像的生成,而无需进行额外的训练或微调。简单来说,就...新技术# TraDiffusion# 图像生成2年前08310
DiPIR:将虚拟对象以逼真的方式插入到真实世界场景的图片或视频中英伟达、多伦多大学和矢量研究所的研究人员推出DiPIR技术,它能够将虚拟对象以逼真的方式插入到真实世界场景的图片或视频中。这项技术的核心在于理解和模拟场景的光照、几何形状和材质,以及图像形成过程,从而...新技术# DiPIR2年前06220
新型视频生成模型Factorized-Dreamer:用于将文本转换成高质量的视频字节跳动和香港理工大学的研究人员推出新型视频生成模型Factorized-Dreamer,它专门用于将文本转换成高质量的视频(Text-to-Video, T2V)。Factorized-Dreame...新技术# Factorized-Dreamer# 视频生成模型2年前04280
Adobe推出全新图像编辑方法TurboEdit:实现基于文本的即时图像编辑Adobe Research推出了一种全新的图像编辑方法TurboEdit,它能够实现基于文本的即时图像编辑,它利用了所谓的"少步骤扩散模型"(few-step diffusion models),在...新技术# TurboEdit# 图像编辑2年前05450