视频模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

阿里开源 Wan2.2-S2V-14B：输入一张图 + 一段音频，生成电影级数字人视频

阿里Wan团队正式开源音频驱动视频生成模型Wan2.2-S2V-14B。这款模型打破了传统视频生成对复杂输入的依赖——用户仅需提供一张静态图像与一条音频，即可生成面部表情自然、口型精准同步、肢体动作流...

7个月前

05380

字节跳动 Waver 项目组推出一体化视频生成模型Waver 1.0：同时支持文生图、图生视频及文生图生成

字节跳动 Waver 项目组近期正式推出 Waver 1.0 一体化视频生成模型，凭借多模态生成能力、高分辨率支持及卓越的运动建模效果，在视频生成领域实现重要突破，为工业级视频创作需求提供了全新解决方...

视频模型 # Waver 1.0 # 字节跳动 # 视频生成

7个月前

06470

阿里淘天推出基于 DiT 的生成式视频修复方法Vivid-VR：概念蒸馏 + 双分支控制实现高纹理与时间连贯

老旧视频模糊、噪点多、细节丢失，能否通过 AI 实现自然且真实的画质增强？传统视频修复方法往往在提升分辨率的同时，引入伪影、纹理失真或帧间抖动。而基于扩散模型的新一代生成技术，虽然具备强大的细节生成...

视频模型 # Vivid-VR # 视频修复

7个月前

04530

解决高分辨率生成痛点：CineScale 新范式优化扩散模型，支持 8K 图像与 4K 视频合成

视觉扩散模型虽已取得显著进展，但受限于“高分辨率训练数据稀缺”与“计算资源消耗大”，多数模型只能在低分辨率（如512×512）下训练，导致生成高保真图像、视频时容易出现“重复模式”“细节模糊”等问题...

视频模型 # CineScale # 高分辨率生成

7个月前

04320

南大、复旦联合英伟达提出LongVie：可控超长视频生成突破1分钟，解决时间不一致难题

可控超长视频生成（如生成1分钟以上、场景与动作精准可控的视频）是AI生成领域的核心挑战——现有方法在短视频生成中表现尚可，但扩展到长视频时，常出现时间不一致（帧间突变、物体位置漂移）与视觉质量下降（颜...

视频模型 # LongVie # 视频生成

7个月前

01610

多模态扩散架构MoDA：用于生成具有任意身份和语音音频的“会说话的头像”

阿里达摩院、浙江大学、湖畔实验室的研究人员推出多模态扩散架构MoDA，用于生成具有任意身份和语音音频的“会说话的头像”（talking head）。项目主页：https://lixinyyang.g...

视频模型 # MoDA # 多模态

8个月前

01190

InfiniteTalk：支持稀疏帧输入的全动态音频驱动视频生成，实现全身协调的说话视频生成

在虚拟人、影视后期、跨语言内容本地化等场景中，理想的配音技术不仅要实现精准的唇部同步，还需让头部运动、面部表情、身体姿态自然地跟随语音节奏变化，同时保持人物身份一致性。项目主页：https://me...

视频模型 # InfiniteTalk # 对口型

7个月前

01100

ToonComposer：通过生成式后关键帧（post-keyframing）阶段简化卡通制作流程

香港中文大学、腾讯PCG ARC Lab和北京大学的研究人员推出 ToonComposer ，通过生成式后关键帧（post-keyframing）阶段简化卡通制作流程。传统的卡通和动画制作涉及关键帧绘...

视频模型 # ToonComposer # 卡通制作

8个月前

01,1400

视频处理引擎ViPE：用于从普通视频中估计相机运动、相机内参以及密集的度量深度图

英伟达、多伦多大学、矢量研究所和德克萨斯大学奥斯汀分校的研究人员推出视频处理引擎ViPE（Video Pose Engine），用于从普通视频中估计相机运动、相机内参以及密集的度量深度图，能够从普通...

视频模型 # ViPE # 视频处理引擎

8个月前

03020

StableAvatar：首个端到端生成无限长度虚拟人视频的扩散模型

你是否曾想过，仅凭一张静态照片和一段语音，就能让照片中的人物“开口说话”，并持续数分钟自然表达？这正是音频驱动虚拟人视频生成（Audio-Driven Talking Head Generation...

视频模型 # StableAvatar # 虚拟人

8个月前

05310

阿里发布 Omni-Effects：首个支持空间可控复合特效生成的统一框架

在现代电影与视频制作中，视觉特效（VFX）是实现创意表达的核心工具。然而，传统 VFX 制作成本高昂、周期长，依赖专业团队和复杂软件。近年来，AI 视频生成模型为 VFX 提供了更具成本效益的替代方...

视频模型 # Omni-Effects # 视觉特效

8个月前

02380

腾讯微信视觉团队发布 Stand-In：轻量级身份保持视频生成新框架

在文本到视频（T2V）生成领域，一个长期存在的难题是：如何让生成的视频中的人物始终“长成你想要的样子”？尽管现有模型能生成流畅、高质量的视频，但在身份一致性（identity-preserving...

视频模型 # Stand-In # 视频生成框架

7个月前

05370

加载更多

阿里开源 Wan2.2-S2V-14B：输入一张图 + 一段音频，生成电影级数字人视频

字节跳动 Waver 项目组推出一体化视频生成模型Waver 1.0：同时支持文生图、图生视频及文生图生成

阿里淘天推出基于 DiT 的生成式视频修复方法Vivid-VR：概念蒸馏 + 双分支控制实现高纹理与时间连贯

解决高分辨率生成痛点：CineScale 新范式优化扩散模型，支持 8K 图像与 4K 视频合成

南大、复旦联合英伟达提出LongVie：可控超长视频生成突破1分钟，解决时间不一致难题

多模态扩散架构MoDA：用于生成具有任意身份和语音音频的“会说话的头像”

InfiniteTalk：支持稀疏帧输入的全动态音频驱动视频生成，实现全身协调的说话视频生成

ToonComposer：通过生成式后关键帧（post-keyframing）阶段简化卡通制作流程

视频处理引擎ViPE：用于从普通视频中估计相机运动、相机内参以及密集的度量深度图

StableAvatar：首个端到端生成无限长度虚拟人视频的扩散模型

阿里发布 Omni-Effects：首个支持空间可控复合特效生成的统一框架

腾讯微信视觉团队发布 Stand-In：轻量级身份保持视频生成新框架

S.H.I.T

360龙虾卫士

ITELLOU

TapNow

OpenMAIC

CC-Connect

视频模型

网址

S.H.I.T

360龙虾卫士

ITELLOU

TapNow

OpenMAIC

CC-Connect