视频模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

UniVideo：滑铁卢大学与快手推出统一视频生成与编辑模型，支持理解、生成、编辑一体化

长久以来，视频 AI 能力被割裂为多个独立任务：理解：靠视觉语言模型（如 Qwen-VL）生成：依赖扩散模型（如 Sora、HunyuanVideo）编辑：需专门的编辑网络或掩码引导这种碎片化...

3周前

0120

Lightricks发布LTX-2：首个基于 DiT 的开源音视频基础模型

Lightricks发布了首个基于 Diffusion Transformer（DiT）架构的开源音视频联合生成模型LTX-2。它在一个统一框架中集成了现代视频生成的核心能力：同步的音频与视频输出...

视频模型 # Lightricks # LTX-2 # 音视频模型

3周前

0170

Stable Video Infinity（SVI）发布 2.0 Pro：基于错误回收机制的无限长视频生成模型

洛桑联邦理工学院（EPFL）的研究团队推出 Stable Video Infinity（SVI） ——一款能够生成任意长度视频的人工智能模型。它通过一项名为 “错误回收微调（Error-Recycli...

视频模型 # Stable Video Infinity

1个月前

0890

StoryMem：基于Wan2.2的新框架，用“视觉记忆”生成连贯的多镜头长视频

生成一段包含多个镜头、角色一致、场景连贯、时长达一分钟的叙事视频，是当前视频生成模型的重大挑战。主流方法要么局限于单镜头，要么在跨镜头切换时出现角色崩坏、场景断裂等问题。由南洋理工大学与字节跳动联合...

视频模型 # StoryMem # Wan2.2

1个月前

0270

OmniVCus：用多模态控制信号实现前馈式主题驱动视频定制

在视频生成领域，一个长期挑战是：如何让用户通过简单指令（如文本、草图或相机轨迹），灵活定制视频中一个或多个主体的外观、动作与空间关系？由约翰·霍普金斯大学、Adobe 研究院、香港大学、香港中文大学...

视频模型 # OmniVCus # 视频

1个月前

0210

TurboDiffusion：视频扩散模型提速 100–200 倍，质量几乎无损

视频扩散模型虽能生成高质量内容，但其缓慢的推理速度长期制约实际应用。近日，清华大学、生数科技与加州大学伯克利分校联合提出 TurboDiffusion——一个端到端视频生成加速框架，在单张 RTX 5...

视频模型 # TurboDiffusion # Wan2.2

1个月前

0230

Spatia：基于可更新空间记忆的长期一致视频生成框架

传统视频生成模型在生成长视频时，常因高维时空信号的复杂性而难以维持长期的空间与时间一致性——场景结构漂移、物体位置突变、相机运动不连贯等问题普遍存在。项目主页：https://zhaojingjin...

视频模型 # Spatia # 视频生成

1个月前

0250

英伟达推出NitroGen：基于人类游戏视频的通用视觉-动作基础模型

NitroGen 是由英伟达开发的开放性具身智能基础模型（foundation model for embodied agents），旨在通过观察人类玩家的游戏视频，直接学习从原始画面到手柄动作的映射...

视频模型 # NitroGen # 英伟达

1个月前

0510

FlashPortrait：端到端生成无限长度肖像动画，6倍加速且身份一致

在肖像动画（Portrait Animation）任务中，身份一致性与推理效率是两大长期瓶颈。现有扩散模型即便能生成逼真短片，也常在长序列中出现身份漂移、颜色偏移或动作断裂，且生成速度慢，难以用于实际...

视频模型 # FlashPortrait # 肖像动画

1个月前

0560

美团 LongCat 发布统一音频驱动视频模型LongCat-Video-Avatar：支持长视频、多模态输入与多人物动画

音频驱动的人类视频合成（Audio-Driven Talking Head）近年来在唇形同步和画面逼真度上取得显著进展。但生成长时间、高动态、身份一致的视频仍是行业难题：现有方法要么在长序列中出现身份...

视频模型 # LongCat-Video-Avatar # 美团

1个月前

0180

PersonaLive：基于扩散模型的实时肖像动画系统，延迟仅0.25秒

在数字人、虚拟主播和直播场景中，高质量、低延迟、身份一致的肖像动画是核心需求。然而，主流扩散模型虽能生成逼真画面，却因高计算成本与多步去噪，难以满足实时交互要求——生成一段3秒视频往往需要数十秒，远不...

视频模型 # PersonaLive # 肖像动画

1个月前

0150

MoLingo：通过语义对齐潜在空间实现高保真文本到动作生成

在虚拟角色动画、VR/AR交互和智能体控制中，如何让AI根据一句自然语言（如“一个人正在跳华尔兹”）生成逼真、连贯且语义一致的人体动作，一直是核心挑战。传统方法要么动作生硬，要么与文本描述脱节，难以兼...

视频模型 # MoLingo # 动作生成

1个月前

0390

加载更多

UniVideo：滑铁卢大学与快手推出统一视频生成与编辑模型，支持理解、生成、编辑一体化

Lightricks发布LTX-2：首个基于 DiT 的开源音视频基础模型

Stable Video Infinity（SVI）发布 2.0 Pro：基于错误回收机制的无限长视频生成模型

StoryMem：基于Wan2.2的新框架，用“视觉记忆”生成连贯的多镜头长视频

OmniVCus：用多模态控制信号实现前馈式主题驱动视频定制

TurboDiffusion：视频扩散模型提速 100–200 倍，质量几乎无损

Spatia：基于可更新空间记忆的长期一致视频生成框架

英伟达推出NitroGen：基于人类游戏视频的通用视觉-动作基础模型

FlashPortrait：端到端生成无限长度肖像动画，6倍加速且身份一致

美团 LongCat 发布统一音频驱动视频模型LongCat-Video-Avatar：支持长视频、多模态输入与多人物动画

PersonaLive：基于扩散模型的实时肖像动画系统，延迟仅0.25秒

MoLingo：通过语义对齐潜在空间实现高保真文本到动作生成

Skills.sh

Situation Monitor

CutCut

TapNow

Clawdbot/Moltbot

新Awesome Clawdbot(Moltbot) Skills

视频模型

网址

Skills.sh

Situation Monitor

CutCut

TapNow

Clawdbot/Moltbot

新Awesome Clawdbot(Moltbot) Skills