步态感知偏好优化SPO:改进SD模型的训练过程,使其生成的图像更符合人类的审美偏好来自澳大利亚国立大学、利物浦大学、东南大学和微软亚洲研究院的研究人员推出新技术Step-aware Preference Optimization(SPO,步态感知偏好优化),用于改进文本到图像的扩散...新技术# SD模型# SPO# 步态感知偏好优化2年前07570
Follow-Your系列新框架Follow-Your-Emoji:基于扩散模型的肖像动画框架,生成富有表现力的表情动画来自香港科技大学、腾讯混元团队和清华大学的研究团队推出Follow-Your系列新框架Follow-Your-Emoji,这是一种基于扩散模型的肖像动画框架。简单来说,它可以根据一系列目标表情和动作标...新技术# Follow-Your-Emoji# 肖像动画框架1年前08330
模型量化技术BitsFusion:减少SD模型参数大小,同时还能让这个模型生成的图片质量更好Snap和罗格斯大学的研究人员推出新型图像生成模型的权重量化技术BitsFusion。简单来说,就是研究者们开发了一种方法,可以把一个用来生成图片的复杂模型(叫做扩散模型)的参数量大大减少,同时还能让...新技术# BitsFusion# 模型参数# 模型量化2年前06720
Controlnet作者lllyasviel新开源项目Omost:将大语言模型的编程能力转化为图像合成能力Controlnet作者lllyasviel的新开源项目Omost,这是一个将大语言模型的编程能力转化为图像合成能力的项目。项目名称“Omost”(发音类似于“almost”,意为“几乎”)蕴含双重意...新技术# controlnet# lllyasviel# Omost2年前07560
自动化图形设计工具PosterLLaVa:利用多模态大语言模型来自动化图形设计中的布局生成任务腾讯推出PosterLLaVa系统,它是一个统一的多模态布局生成器,利用多模态大语言模型(MLLM)来自动化图形设计中的布局生成任务。布局生成是图形设计中非常关键的一环,它需要以一种视觉上令人愉悦且遵...新技术# PosterLLaVa# 多模态布局生成器# 自动化图形设计2年前08810
Search_T2V:改善文本到视频合成的质量和真实感浙江大学、飞步科技、宁波港和腾讯数据平台的研究人员推出新技术Search_T2V,旨在改善文本到视频(Text-to-Video, T2V)合成的质量和真实感。该技术通过搜索现有的视频资源作为运动先验...新技术# Search_T2V# 文生视频模型2年前06810
阿里推出新型视频生成框架I4VGen:无需训练且即插即用的视频扩散推理框架阿里推出新型视频生成框架I4VGen,这是一个无需训练(training-free)且即插即用(plug-and-play)的视频扩散推理框架,它通过强化图像技术来提升文本到视频(text-to-vi...新技术# I4VGen# 视频生成框架2年前05930
人像视频生成框架V-Express:平衡不同控制信号(如文本、音频、参考图像、姿态、深度图等)的强弱,以便在生成视频中实现更协调和有效的控制南京大学和腾讯人工智能实验室的研究人员推出人像视频生成框架V-Express,它用于生成高质量的人像视频。这项技术特别关注于如何平衡不同控制信号(如文本、音频、参考图像、姿态、深度图等)的强弱,以便在...新技术# V-Express# 人像视频2年前06550
英伟达推出Autoguidance:改进图像生成扩散模型的性能英伟达和阿尔托大学的研究人员推出Autoguidance,改进图像生成扩散模型的性能,特别是通过一种新颖的方法来控制图像质量、结果的变化性以及与给定条件(如类别标签或文本提示)的一致性。扩散模型是一种...新技术# Autoguidance# 英伟达2年前08080
创新框架UniAnimate:用于生成高质量、时间连贯的人类图像动画视频华中科技大学、 阿里巴巴和中国科学技术大学的研究人员推出创新框架UniAnimate,它专门用于生成高质量、时间连贯的人类图像动画视频。UniAnimate通过结合统一的视频扩散模型、统一的噪声输入和...新技术# UniAnimate# 视频扩散模型2年前09070
视频插帧新技术ZeroSmooth:提升预训练视频扩散模型生成高帧率视频的能力,而无需额外的训练数据和参数更新中国科学院大学人工智能学院、中国科学院自动化研究所模式识别新实验室和腾讯AI实验室的研究人员推出ZeroSmooth,它能够提升预训练视频扩散模型生成高帧率视频的能力,而无需额外的训练数据和参数更新...新技术# ZeroSmooth# 视频插帧2年前08660
先进的视频深度估计方法ChronoDepth:通过结合视频生成模型的先验知识,有效地提高了深度估计的准确性和时间一致性浙江大学、博洛尼亚大学、蚂蚁集团和Rock Universe的研究人员推出一种先进的视频深度估计方法ChronoDepth,它通过结合视频生成模型的先验知识,有效地提高了深度估计的准确性和时间一致性...新技术# ChronoDepth# 视频深度2年前08160