新型视频生成框架ConFiner:结合多个专家模型的能力,以一种高效且无需训练的方式,生成高质量且连贯的视频内容悉尼大学、东南大学、中南大学、上海交通大学、商汤科技研究院和香港科技大学的研究人员推出新型视频生成框架ConFiner,它通过一系列现成的扩散模型专家(diffusion model experts...新技术# ConFiner# 视频生成1年前08090
一步式文本到图像扩散模型SwiftBrush v2:通过优化训练方法和引入新的损失函数,来提高图像质量和文本图像对齐度越南VinAI 研究和胡志明邮电技术学院的研究人员推出SwiftBrush v2,这是一个先进的文本到图像扩散模型,它通过优化训练方法和引入新的损失函数,比如“clamped CLIP loss”,来...新技术# SwiftBrush v21年前04670
新型图像编辑方法CODE:能够在保持图像真实感的同时,对图像进行高质量的编辑和合成洛桑联邦理工学院的研究人员推出新型图像编辑方法CODE(Confident Ordinary Differential Editing,自信常微分编辑),它能够在保持图像真实感的同时,对图像进行高质量...新技术# CODE# 图像编辑1年前05320
新型视频生成框架CustomCrafter:根据文本提示和主题参考图像生成高质量视频浙江大学、腾讯人工智能实验室和腾讯 PCG ARC 实验室的研究人员推出新型视频生成框架CustomCrafter,它可以根据文本提示和主题参考图像生成高质量视频。这项技术的目标是让用户能够自定义视频...新技术# CustomCrafter# 视频生成1年前04670
创新电影制作框架DreamCinema:利用AI技术简化了电影创作过程,使得个人也能轻松成为电影制作人清华大学推出创新电影制作框架DreamCinema,它利用AI技术简化了电影创作过程,使得个人也能轻松成为电影制作人。在这个数字化媒体蓬勃发展的时代,人们对于创造个性化、高质量的电影级视频有着广泛需求...新技术# DreamCinema# 电影1年前06360
DiT架构的文生视频模型xGen-VideoSyn-1:根据文本描述生成逼真的视频场景Salesforce推出新的文生视频模型xGen-VideoSyn-1,这个模型能够根据文本描述生成逼真的视频场景,它的设计灵感来源于OpenAI的Sora模型,并在此基础上进行了改进和创新。例如,你...新技术# xGen-VideoSyn# 文生视频模型1年前06270
统一Transformer模型Show-o:同时处理多模态理解(如图像和文本)和生成任务新加坡国立大学和字节跳动的研究人员推出一种统一的Transformer模型Show-o,,它统一了多模态的理解和生成。不同于完全自回归模型,Show-o结合了自回归和(离散)扩散建模,以自适应地处理各...新技术# Show-o# Transformer模型1年前05760
新型文本到图像生成方法FRAP:基于自适应调整每个词汇的提示权重来改善生成图像与提示之间的一致性和真实性阿尔伯塔大学电子与计算机工程系、华为技术加拿大公司和华为麒麟解决方案的研究人员推出新型文本到图像生成方法FRAP,旨在提高由文本提示生成图像的真实性和忠实度,确保生成的图像与文本描述的内容精确匹配。F...新技术# FRAP# 文生图1年前04600
新型文本到图像的扩散模型优化方法迭代对象计数优化:准确地生成指定数量的对象特拉维夫大学和巴伊兰大学的研究人员推出一种新的文本到图像的扩散模型优化方法,这个方法被称为“迭代对象计数优化”(Iterative Object Count Optimization)。这个方法主要解...新技术# 迭代对象计数优化1年前04180
新型视频生成方法TrackGo:根据用户的输入精确控制视频中对象的运动北京航空航天大学和爱诗科技的研究人员推出新型视频生成方法TrackGo,它能够根据用户的输入精确控制视频中对象的运动。这项技术允许用户通过自由形式的遮罩(masks)和箭头来指定目标对象或部分,以及它...新技术# TrackGo# 视频生成1年前04800
Meta推出个性化图像生成模型Imagine yourselfMeta推出个性化图像生成模型Imagine yourself,这个模型的特别之处在于,它不需要针对每个用户进行个性化调整或“调优”,就能够为所有用户提供服务。这就像是有一个智能的画家,无论谁来请求画...新技术# Imagine yourself# Meta# 个性化图像生成模型1年前05480
MegaFusion:将现有的扩散模型扩展到更高分辨率的图像生成,而无需额外的调整或适应上海交通大学、上海人工智能实验室和大连理工大学的研究人员推出MegaFusion,它能够将现有的扩散模型(diffusion models)扩展到更高分辨率的图像生成,而无需额外的调整或适应。具体而言...新技术# MegaFusion1年前06710