视频模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

LIA-X：一种可解释的肖像动画方法，让面部动作“看得见、控得住”

上海人工智能实验室和蔚蓝海岸大学的研究人员推出一种新颖的可解释肖像动画器LIA-X，旨在将驱动视频中的面部动态转移到源肖像上，并实现精细控制。项目主页：https://wyhsirius.githu...

视频模型 # LIA-X # 肖像动画

8个月前

03940

EchoMimicV3：用一个13亿参数模型，统一处理音频、文本、图像驱动的人体动画

你是否想象过这样的场景？输入一段语音，AI 自动生成人物说话的视频，唇形精准对齐，表情自然生动；给一张静态肖像，加上一句“他开始微笑并挥手”，画面立刻动起来；结合提示词和参考图，生成一段人物动作...

视频模型 # EchoMimicV3 # 人体动画

8个月前

02410

阿里云 PAI发布 Wan2.2-Fun：扩展Wan2.2文生视频与可控视频生成的能力边界

阿里云 PAI 团队昨日正式推出 Wan2.2-Fun 系列模型，作为其 VideoX-Fun 项目的重要更新，进一步扩展了文生视频与可控视频生成的能力边界。模型：https://huggingfa...

视频模型 # Wan2.2-Fun # 阿里云 PAI

8个月前

03880

MiniMax-Remover：港中大等联合提出高效视频目标移除新方法

在视频编辑中，目标移除是一项关键任务：从视频中删除指定对象（如行人、车辆、水印），同时保持背景的视觉一致性与时间连贯性。然而，现有方法常面临三大挑战：生成伪影或“幻觉对象” 推理速度慢，依赖高步数采...

视频模型 # MiniMax-Remover

8个月前

02010

阿里 WAN 项目组正式推出 Wan2.2：MoE 架构 + 高压缩设计，开源视频生成再进化

阿里 WAN 项目组正式推出 Wan2.2，这是对 WAN 系列视频生成模型的一次重大升级。本次发布涵盖多个模型变体，全面支持文本到视频（T2V）、图像到视频（I2V）以及混合输入（TI2V）任务，在...

视频模型 # Wan2.2 # 视频生成模型

8个月前

01,1050

交互式世界生成模型 Yume：通过输入图像、文本或视频来创建一个动态、逼真且可交互的世界

由上海市人工智能实验室、复旦大学与上海创新研究院联合研发的新型生成模型 Yume 正式亮相。该模型旨在突破传统生成式 AI 的静态局限，构建一个可探索、可控制、高保真且动态演化的虚拟世界。项目主页...

视频模型 # Yume # 交互式世界生成模型

8个月前

02400

浙大 × 阿里巴巴推出 OmniAvatar：首个支持音频驱动全身动画的可控虚拟人视频生成模型

在数字人、虚拟主播、AI 视频创作等领域，仅靠语音生成逼真且动作自然的虚拟形象视频，一直是生成式 AI 的关键挑战之一。现有音频驱动视频生成方法大多聚焦于面部动画，尤其是唇部同步，而对身体动作、姿态...

视频模型 # OmniAvatar # 虚拟人

8个月前

02520

新型扩散模型 Diffuman4D ：从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频

浙江大学和蚂蚁研究的研究人员推出新型扩散模型 Diffuman4D ，从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频。该模型通过引入滑动迭代去噪过程和基于人体骨骼的姿态条件机制，显著提升了生...

视频模型 # Diffuman4D # 人体自由视角视频

9个月前

03810

FantasyPortrait：基于DIT架构模型的多角色肖像动画生成框架

由阿里巴巴与北京邮电大学联合提出，FantasyPortrait 是一个基于扩散变换器（Diffusion Transformer）的创新框架，用于从静态图像生成高保真、富有表现力的单角色与多角色面部...

视频模型 # FantasyPortrait # 多角色肖像动画生成

9个月前

01020

LightX2V：轻量级视频生成推理框架，统一支持多种模态输入

随着多模态生成模型的发展，文本到视频（T2V）、图像到视频（I2V）等任务逐渐成为研究热点。然而，不同模型往往使用不同的推理流程，导致部署与调用复杂、资源占用高。为此，研究人员推出了一个全新的轻量级...

视频模型 # LightX2V # 视频生成

9个月前

02770

韩国科学技术院提出 ALG 方法：显著提升图生视频模型的动态性

图像到视频（Image-to-Video, I2V）模型近年来取得了长足进展，能够根据一张静态图像和文本提示生成动态视频，实现更强的视觉控制。然而，研究发现，这类模型往往生成的视频过于静态，动态性远不...

视频模型 # ALG # 图生视频

9个月前

01680

PUSA V1.0：以500 美元成本超越 WAN-I2V-14B 的高效视频生成模型

由香港城市大学、华为研究院、腾讯、岭南大学等机构联合提出，PUSA V1.0 是一个基于矢量化时间步适应（VTA）的新型视频扩散模型，实现了极低资源消耗下的高质量视频生成能力。项目主页：https...

视频模型 # PUSA V1.0 # WAN-I2V-14B # 视频生成模型

9个月前

06350

加载更多

LIA-X：一种可解释的肖像动画方法，让面部动作“看得见、控得住”

EchoMimicV3：用一个13亿参数模型，统一处理音频、文本、图像驱动的人体动画

阿里云 PAI发布 Wan2.2-Fun：扩展Wan2.2文生视频与可控视频生成的能力边界

MiniMax-Remover：港中大等联合提出高效视频目标移除新方法

阿里 WAN 项目组正式推出 Wan2.2：MoE 架构 + 高压缩设计，开源视频生成再进化

交互式世界生成模型 Yume：通过输入图像、文本或视频来创建一个动态、逼真且可交互的世界

浙大 × 阿里巴巴推出 OmniAvatar：首个支持音频驱动全身动画的可控虚拟人视频生成模型

新型扩散模型 Diffuman4D ：从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频

FantasyPortrait：基于DIT架构模型的多角色肖像动画生成框架

LightX2V：轻量级视频生成推理框架，统一支持多种模态输入

韩国科学技术院提出 ALG 方法：显著提升图生视频模型的动态性

PUSA V1.0：以500 美元成本超越 WAN-I2V-14B 的高效视频生成模型

OpenMAIC

ITELLOU

S.H.I.T

360龙虾卫士

新即梦 CLI

TapNow

视频模型

网址

OpenMAIC

ITELLOU

S.H.I.T

360龙虾卫士

新即梦 CLI

TapNow