模思智能推出 MOVA:开源同步音视频生成基座模型,打破“无声视频”困局模思智能正式开源 MOVA(MOSS Video and Audio)——一款专注于原生同步生成视频与音频的基座模型。针对当前主流系统(如 Sora 2、Veo 3)普遍采用的“先画后音”级联流程,M...视频模型# MOVA# 模思智能1个月前0170
UniVideo:滑铁卢大学与快手推出统一视频生成与编辑模型,支持理解、生成、编辑一体化长久以来,视频 AI 能力被割裂为多个独立任务: 理解:靠视觉语言模型(如 Qwen-VL) 生成:依赖扩散模型(如 Sora、HunyuanVideo) 编辑:需专门的编辑网络或掩码引导 这种碎片化...视频模型# UniVideo# 视频生成# 视频编辑2个月前0230
Lightricks发布LTX-2:首个基于 DiT 的开源音视频基础模型Lightricks发布了首个基于 Diffusion Transformer(DiT) 架构的开源音视频联合生成模型LTX-2。它在一个统一框架中集成了现代视频生成的核心能力:同步的音频与视频输出...视频模型# Lightricks# LTX-2# 音视频模型2个月前0360
Stable Video Infinity(SVI)发布 2.0 Pro:基于错误回收机制的无限长视频生成模型洛桑联邦理工学院(EPFL)的研究团队推出 Stable Video Infinity(SVI) ——一款能够生成任意长度视频的人工智能模型。它通过一项名为 “错误回收微调(Error-Recycli...视频模型# Stable Video Infinity2个月前01260
StoryMem:基于Wan2.2的新框架,用“视觉记忆”生成连贯的多镜头长视频生成一段包含多个镜头、角色一致、场景连贯、时长达一分钟的叙事视频,是当前视频生成模型的重大挑战。主流方法要么局限于单镜头,要么在跨镜头切换时出现角色崩坏、场景断裂等问题。 由南洋理工大学与字节跳动联合...视频模型# StoryMem# Wan2.22个月前0610
OmniVCus:用多模态控制信号实现前馈式主题驱动视频定制在视频生成领域,一个长期挑战是:如何让用户通过简单指令(如文本、草图或相机轨迹),灵活定制视频中一个或多个主体的外观、动作与空间关系? 由约翰·霍普金斯大学、Adobe 研究院、香港大学、香港中文大学...视频模型# OmniVCus# 视频2个月前0270
TurboDiffusion:视频扩散模型提速 100–200 倍,质量几乎无损视频扩散模型虽能生成高质量内容,但其缓慢的推理速度长期制约实际应用。近日,清华大学、生数科技与加州大学伯克利分校联合提出 TurboDiffusion——一个端到端视频生成加速框架,在单张 RTX 5...视频模型# TurboDiffusion# Wan2.23个月前0310
Spatia:基于可更新空间记忆的长期一致视频生成框架传统视频生成模型在生成长视频时,常因高维时空信号的复杂性而难以维持长期的空间与时间一致性——场景结构漂移、物体位置突变、相机运动不连贯等问题普遍存在。 项目主页:https://zhaojingjin...视频模型# Spatia# 视频生成3个月前0310
英伟达推出NitroGen:基于人类游戏视频的通用视觉-动作基础模型NitroGen 是由英伟达开发的开放性具身智能基础模型(foundation model for embodied agents),旨在通过观察人类玩家的游戏视频,直接学习从原始画面到手柄动作的映射...视频模型# NitroGen# 英伟达3个月前0800
FlashPortrait:端到端生成无限长度肖像动画,6倍加速且身份一致在肖像动画(Portrait Animation)任务中,身份一致性与推理效率是两大长期瓶颈。现有扩散模型即便能生成逼真短片,也常在长序列中出现身份漂移、颜色偏移或动作断裂,且生成速度慢,难以用于实际...视频模型# FlashPortrait# 肖像动画3个月前0830
美团 LongCat 发布统一音频驱动视频模型LongCat-Video-Avatar:支持长视频、多模态输入与多人物动画音频驱动的人类视频合成(Audio-Driven Talking Head)近年来在唇形同步和画面逼真度上取得显著进展。但生成长时间、高动态、身份一致的视频仍是行业难题:现有方法要么在长序列中出现身份...视频模型# LongCat-Video-Avatar# 美团3个月前0450
PersonaLive:基于扩散模型的实时肖像动画系统,延迟仅0.25秒在数字人、虚拟主播和直播场景中,高质量、低延迟、身份一致的肖像动画是核心需求。然而,主流扩散模型虽能生成逼真画面,却因高计算成本与多步去噪,难以满足实时交互要求——生成一段3秒视频往往需要数十秒,远不...视频模型# PersonaLive# 肖像动画3个月前0200