腾讯推出音乐生成框架XMusic:支持多种输入形式(图像、视频、文本、标签和哼唱)生成音乐 在 AI 生成内容的领域中,音乐创作一直未能跟上视觉和文本内容的步伐。如今,腾讯推出的 XMusic 框架有望改变这一现状,通过情感可控、高质量的音乐创作,为创意应用带来新的可能性。 项目主页:htt... 新技术# XMusic 1个月前0660
新型视频超分辨率(VSR)框架STAR:通过整合文生视频模型,解决真实世界视频超分辨率中的空间细节和时间一致性问题 在处理真实世界视频超分辨率任务时,基于生成对抗网络(GAN)的方法常常面临过度平滑的问题,而图像扩散模型虽然能部分解决这一问题,但在保持时间一致性方面表现不佳。为了解决这些问题,来自南京大学、字节跳动... 新技术# STAR# 视频超分辨率 1个月前01070
通用视频人脸恢复的统一框架SVFR:用于解决视频中的人脸恢复问题 厦门大学多媒体可信感知与高效计算教育部重点实验室和腾讯优图实验室的研究人员推出人脸恢复统一框架SVFR,用于解决视频中的人脸恢复问题。人脸恢复(Face Restoration, FR)是图像和视频处... 新技术# SVFR# 人脸恢复 1个月前0780
新型虚拟试穿技术FitDiT:专为优化DiT模型的虚拟试穿性能而设计 尽管基于图像的虚拟试穿技术已取得显著进展,但在生成高保真度和适应性强的拟合图像上仍面临诸多挑战。尤其在纹理感知维护和尺寸感知拟合等关键领域,现有方法往往难以达到理想效果,这限制了技术的整体实用性。为应... 新技术# FitDiT# 虚拟试穿 1个月前01560
新型Transformer框架Gaze-LLE:用于估计人在场景中注视的目标位置 佐治亚理工学院和伊利诺伊大学厄巴纳-香槟分校的研究人员推出新型Transformer框架,它用于估计人在场景中注视的目标位置。这项技术的核心在于预测一个人在观看什么,这需要对个体的外观和场景内容进行推... 新技术# Gaze-LLE 1个月前01220
VisionReward:用于图像和视频生成的细粒度多维度人类偏好学习框架 清华大学和智谱AI的研究人员推出VisionReward,这是一个用于图像和视频生成的细粒度多维度人类偏好学习框架。VisionReward通过构建一个细粒度且多维度的奖励模型,将人类对图像和视频的偏... 新技术# VisionReward 2个月前0900
Ingredients:将多个特定身份(ID)的照片与视频生成模型结合,实现定制化的视频创作 昆仑万维的研究人员推出一个强大的框架 Ingredients,通过将多个特定身份(ID)的照片与视频扩散变换器(Video Diffusion Transformers)结合,实现定制化的视频创作。该... 新技术# Ingredients 2个月前01040
单步扩散模型 DepthMaster:将扩散模型应用于单目深度估计 中国科学技术大学和vivo移动通信有限公司的研究人员推出一种单步扩散模型 DepthMaster,,旨在将扩散模型应用于单目深度估计(Monocular Depth Estimation, MDE)。... 新技术# DepthMaster# 单目深度 2个月前0960
图生视频框架Through-The-Mask:将静态图像转换为基于文本描述的真实视频序列 Meta和耶路撒冷希伯来大学的研究人员推出图生视频框架Through-The-Mask,旨在将静态图像转换为基于文本描述的真实视频序列。该框架通过引入基于掩码的运动轨迹作为中间表示,能够准确地动画化多... 新技术# Through-The-Mask# 图生视频 2个月前0800
新型视频生成框架GS-DiT:通过伪4D高斯场实现对视频内容的精确4D控制 香港中文大学多媒体实验室、博智感知交互研究中心和Avolution AI的研究人员推出新型视频生成框架GS-DiT,旨在通过伪4D高斯场实现对视频内容的精确4D控制。GS-DiT通过构建伪4D高斯场并... 新技术# GS-DiT# 视频生成 2个月前0820
高保真面部表情编辑框架MagicFace:通过控制面部动作单元的变化来实现对特定人物面部表情的精细编辑 芬兰奥卢大学信息技术与电气工程学院机器视觉与信号分析中心和东南大学生物科学与医学工程学院儿童发展与学习科学教育部重点实验室的研究人员推出高保真面部表情编辑框架MagicFace,它通过控制面部动作单元... 新技术# MagicFace# 面部表情编辑 2个月前0780
Magic Mirror框架:生成具有身份保持(ID-Preserved)和动态运动的高质量视频 香港中文大学、香港科技大学、思谋科技和卡内基梅隆大学的研究人员推出Magic Mirror框架,旨在生成具有身份保持(ID-Preserved)和动态运动的高质量视频。尽管视频扩散模型在文本到视频生成... 新技术# Magic Mirror 2个月前0900