视频抠像框架MatAnyone:实现高质量、高稳定性的视频抠像南洋理工大学和商汤科技研究院的研究人员推出视频抠像(Video Matting)框架MatAnyone,可以实现高质量、高稳定性的视频抠像,即使在复杂的背景和多目标场景中也能保持出色的性能。MatAn...视频模型# MatAnyone# 视频抠像11个月前04300
挚文集团推出HelloMeme:用于生成表情包视频挚文集团推出HelloMeme,它通过在文本到图像的基础模型中集成空间编织注意力(Spatial Knitting Attentions, SK Attentions)来嵌入高水平和高保真度的条件,以...视频模型# HelloMeme# 表情包视频12个月前04290
视频生成模型的高效推理新方案Jenga:无需重新训练模型即可实现HunyuanVideo和Wan2.1显著提速近年来,基于 DiT架构的视频生成模型在生成质量上取得了显著突破,但其高昂的计算成本却严重限制了实际部署与落地。 为了解决这一瓶颈,来自香港中文大学、香港科技大学、快手科技和思谋科技的研究团队提出了 ...视频模型# HunyuanVideo# Jenga# Wan2.18个月前04280
可控角色动画生成框架RealisDance-DiT:在处理稀有姿态、风格化角色、角色与物体的交互、复杂光照和动态场景等挑战性问题时表现出色阿里巴巴达摩院、浙江大学、湖畔实验室、南方科技大学和深圳大学的研究人员推出可控角色动画生成框架RealisDance-DiT,其在处理稀有姿态、风格化角色、角色与物体的交互、复杂光照和动态场景等挑战性...视频模型# RealisDance-DiT# Wan 2.1# 动画生成8个月前04270
腾讯发布开源视频生成模型—混元文生视频模型HunyuanVideo腾讯在今天正式开源了其最新的视频生成模型—混元文生视频模型HunyuanVideo。这款模型不仅在视频生成能力上与业界领先的闭源模型相匹敌,甚至在某些方面表现更为出色。作为一款综合性的框架,Hunyu...视频模型# HunyuanVideo# 混元文生视频模型# 腾讯12个月前04230
肖像图像动画Hallo2:用于制作高分辨率、长时间的人像动画基于潜在扩散的生成模型在肖像图像动画方面取得了显著进展,特别是在短时视频合成方面。例如,Hallo 模型已经展示了令人印象深刻的结果。然而,这些模型在生成长时间视频时面临外观漂移和时间伪影等问题。为了...视频模型# Hallo2# 肖像图像12个月前04230
阿里淘天 推出基于 DiT 的生成式视频修复方法Vivid-VR:概念蒸馏 + 双分支控制实现高纹理与时间连贯老旧视频模糊、噪点多、细节丢失,能否通过 AI 实现自然且真实的画质增强? 传统视频修复方法往往在提升分辨率的同时,引入伪影、纹理失真或帧间抖动。而基于扩散模型的新一代生成技术,虽然具备强大的细节生成...视频模型# Vivid-VR# 视频修复5个月前04170
用于从单张图像生成灵活视角 3D 场景的框架FlexWorld:从单张图像生成具有灵活视角(如 360° 旋转和缩放)的高质量 3D 场景中国人民大学、北京市大数据重点实验室、清华大学、北京师范大学和字节跳动的研究人员推出一种用于从单张图像生成灵活视角 3D 场景的框架FlexWorld,从单张图像生成具有灵活视角(如 360° 旋转和...视频模型# 3D 场景# FlexWorld11个月前04050
Lightricks 推出全新开源视频生成模型 LTXV-13BLightricks之前推出的都是小尺寸模型,而在今天它宣布推出其最新且最先进的开源视频生成模型——LTXV-13B,这一模型不仅在质量、速度和可访问性方面实现了显著提升,还为创作者提供了强大的工具...视频模型# Lightricks# LTXV-13B# 视频生成模型9个月前04030
图森未来发布图生视频大模型“Ruyi”,能够在消费级显卡上运行图森未来今日正式发布了其首款“图生视频”大模型——Ruyi,目前Ruyi-Mini-7B版本已经正式释出。这款模型专为生成高质量的影视级视频而设计,能够在消费级显卡(如 RTX 3090 或 RTX ...插件视频模型# Ruyi# 图森未来# 图生视频大模型12个月前04020
加速DiT架构视频生成模型的开源技术栈FastVideo:已推出FastHunyuan和FastMochi 两款模型,生成速度提升8倍加州大学圣地亚哥分校 Hao AI 实验室推出的一个开源技术栈FastVideo ,旨在显著加速最先进的(SoTA)开源DiT架构视频生成模型的推理速度。它通过引入 一致性蒸馏(Consistency...视频模型# FastHunyuan# FastMochi# FastVideo12个月前03990
阿里巴巴通义实验室推出Wan2.1-FLF2V-14B:140亿参数的首尾帧到视频生成大模型阿里巴巴通义实验室近日开源了Wan2.1系列的首款大模型——Wan2.1-FLF2V-14B。这是一款专为首尾帧到视频生成设计的140亿参数大模型,旨在为数字艺术家提供前所未有的效率和创作灵活性。 模...视频模型# Wan2.1-FLF2V-14B# 视频生成大模型# 阿里巴巴10个月前03870