图生视频框架Through-The-Mask:将静态图像转换为基于文本描述的真实视频序列Meta和耶路撒冷希伯来大学的研究人员推出图生视频框架Through-The-Mask,旨在将静态图像转换为基于文本描述的真实视频序列。该框架通过引入基于掩码的运动轨迹作为中间表示,能够准确地动画化多...新技术# Through-The-Mask# 图生视频11个月前02950
新型视频生成框架GS-DiT:通过伪4D高斯场实现对视频内容的精确4D控制香港中文大学多媒体实验室、博智感知交互研究中心和Avolution AI的研究人员推出新型视频生成框架GS-DiT,旨在通过伪4D高斯场实现对视频内容的精确4D控制。GS-DiT通过构建伪4D高斯场并...新技术# GS-DiT# 视频生成11个月前03140
高保真面部表情编辑框架MagicFace:通过控制面部动作单元的变化来实现对特定人物面部表情的精细编辑芬兰奥卢大学信息技术与电气工程学院机器视觉与信号分析中心和东南大学生物科学与医学工程学院儿童发展与学习科学教育部重点实验室的研究人员推出高保真面部表情编辑框架MagicFace,它通过控制面部动作单元...新技术# MagicFace# 面部表情编辑11个月前02280
Magic Mirror框架:生成具有身份保持(ID-Preserved)和动态运动的高质量视频香港中文大学、香港科技大学、思谋科技和卡内基梅隆大学的研究人员推出Magic Mirror框架,旨在生成具有身份保持(ID-Preserved)和动态运动的高质量视频。尽管视频扩散模型在文本到视频生成...新技术# Magic Mirror11个月前02440
PPTAgent:根据文档自动化地生成高质量的演示文稿中国科学院软件研究所中文信息处理实验室、中国科学院大学和上海捷信科技有限公司的研究人员推出新型框架PPTAgent,旨在自动化地生成高质量的演示文稿。与传统的文本到幻灯片的转换方法不同,PPTAgen...新技术# PPTAgent2周前02240
新型3D感知视频扩散方法DaS:实现对视频生成过程的多样化和精确控制香港科技大学、浙江大学、香港大学、南洋理工大学、武汉大学和德克萨斯农工大学的研究人员推出新型3D感知视频扩散方法“Diffusion as Shader(DaS)”,旨在实现对视频生成过程的多样化和精...新技术# DaS# 视频生成11个月前03090
新型视频超分辨率(VSR)框架STAR:通过整合文生视频模型,解决真实世界视频超分辨率中的空间细节和时间一致性问题在处理真实世界视频超分辨率任务时,基于生成对抗网络(GAN)的方法常常面临过度平滑的问题,而图像扩散模型虽然能部分解决这一问题,但在保持时间一致性方面表现不佳。为了解决这些问题,来自南京大学、字节跳动...新技术# STAR# 视频超分辨率11个月前02950
SHMT:将不同的妆容风格精准自然地应用于给定的面部图像武汉理工大学计算机与人工智能学院、武汉理工大学三亚科教创新园、阿里巴巴集团达摩院、湖畔实验室 和上海人工智能实验室的研究人员推出一种名为 Self-supervised Hierarchical Ma...新技术# SHMT12个月前02260
Nested Attention:用于在文本到图像模型中实现概念个性化特拉维夫大学和Snap的研究人员推出一种名为 “Nested Attention” 的新机制,用于在文本到图像模型中实现概念个性化。该机制通过在模型的现有交叉注意力层中注入丰富且具有表现力的图像表示...新技术# Nested Attention12个月前02810
视频修复模型SeedVR:处理任意长度和分辨率的真实世界视频修复任务南洋理工大学和字节跳动的研究团队提出了 SeedVR,旨在解决通用视频恢复(video restoration,VR)中面临的挑战,即如何在处理未知退化的真实世界视频时,有效地恢复高质量视频并保持时间...新技术# SeedVR# 视频修复模型12个月前03080
华中科技大学推出VA-VAE和LightningDiT框架:在不牺牲重建质量的前提下,显著提升生成性能华中科技大学的研究团队聚焦于潜在扩散模型(latent diffusion models)中的优化困境,即视觉分词器(visual tokenizer)中每令牌特征维度的增加虽能提升重建质量,但会降低...新技术# LightningDiT# VA-VAE12个月前02500
VideoRefer Suite:提升视频大语言模型对视频中时空对象的理解能力由浙江大学和阿里巴巴达摩院的研究团队提出了VideoRefer Suite,旨在提升视频大语言模型(Video LLM)对视频中时空对象的理解能力,解决现有Video LLM在细粒度时空理解方面的不足...新技术# VideoRefer Suite# 视频大语言模型12个月前02510