视频模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

交互式世界生成模型 Yume：通过输入图像、文本或视频来创建一个动态、逼真且可交互的世界

由上海市人工智能实验室、复旦大学与上海创新研究院联合研发的新型生成模型 Yume 正式亮相。该模型旨在突破传统生成式 AI 的静态局限，构建一个可探索、可控制、高保真且动态演化的虚拟世界。项目主页...

视频模型 # Yume # 交互式世界生成模型

6个月前

01980

浙大 × 阿里巴巴推出 OmniAvatar：首个支持音频驱动全身动画的可控虚拟人视频生成模型

在数字人、虚拟主播、AI 视频创作等领域，仅靠语音生成逼真且动作自然的虚拟形象视频，一直是生成式 AI 的关键挑战之一。现有音频驱动视频生成方法大多聚焦于面部动画，尤其是唇部同步，而对身体动作、姿态...

视频模型 # OmniAvatar # 虚拟人

6个月前

02170

新型扩散模型 Diffuman4D ：从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频

浙江大学和蚂蚁研究的研究人员推出新型扩散模型 Diffuman4D ，从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频。该模型通过引入滑动迭代去噪过程和基于人体骨骼的姿态条件机制，显著提升了生...

视频模型 # Diffuman4D # 人体自由视角视频

7个月前

03000

FantasyPortrait：基于DIT架构模型的多角色肖像动画生成框架

由阿里巴巴与北京邮电大学联合提出，FantasyPortrait 是一个基于扩散变换器（Diffusion Transformer）的创新框架，用于从静态图像生成高保真、富有表现力的单角色与多角色面部...

视频模型 # FantasyPortrait # 多角色肖像动画生成

7个月前

0960

LightX2V：轻量级视频生成推理框架，统一支持多种模态输入

随着多模态生成模型的发展，文本到视频（T2V）、图像到视频（I2V）等任务逐渐成为研究热点。然而，不同模型往往使用不同的推理流程，导致部署与调用复杂、资源占用高。为此，研究人员推出了一个全新的轻量级...

视频模型 # LightX2V # 视频生成

7个月前

02520

韩国科学技术院提出 ALG 方法：显著提升图生视频模型的动态性

图像到视频（Image-to-Video, I2V）模型近年来取得了长足进展，能够根据一张静态图像和文本提示生成动态视频，实现更强的视觉控制。然而，研究发现，这类模型往往生成的视频过于静态，动态性远不...

视频模型 # ALG # 图生视频

7个月前

01480

PUSA V1.0：以500 美元成本超越 WAN-I2V-14B 的高效视频生成模型

由香港城市大学、华为研究院、腾讯、岭南大学等机构联合提出，PUSA V1.0 是一个基于矢量化时间步适应（VTA）的新型视频扩散模型，实现了极低资源消耗下的高质量视频生成能力。项目主页：https...

视频模型 # PUSA V1.0 # WAN-I2V-14B # 视频生成模型

7个月前

05370

清华大学推出SketchColour：基于扩散变换器的高效 2D 动画自动上色方案

清华大学的研究人员提出了一种全新的 2D 动画着色方法——SketchColour。该方法基于扩散变换器（DiT）架构，能够将黑白草图序列自动转换为连贯的彩色动画，显著提升动画制作效率。项目主页：h...

视频模型 # 2D 动画自动上色 # SketchColour

7个月前

01490

StreamDiT：实现实时流式文本到视频生成的新一代扩散模型

近年来，随着基于变换器（Transformer）的扩散模型向数十亿参数扩展，文本到视频（Text-to-Video, T2V）生成技术取得了显著进展。尽管当前模型已能生成高质量视频内容，但它们通常只能...

视频模型 # StreamDiT # 流式视频生成模型

7个月前

03180

LTX Studio为其开源视频生成模型 LTX Video 推出三款全新 LoRA控制模型，为开源视频模型带来前所未有的控制力

LTX Studio 为其开源视频生成模型 LTX Video 推出了三项全新的 LoRA 控制模块，让 AI 视频创作进入一个更具操控性与表现力的新阶段。 Depth Control: LTX-Vi...

视频模型 # LTX Studio # LTX Video

7个月前

01490

DLoRAL：一种兼顾细节与时间一致性的视频超分辨率新方法

在现实世界视频超分辨率（Real-VSR）任务中，如何从低质量（LQ）视频中恢复出既细节丰富又时间连贯的高质量（HQ）视频，是一个极具挑战性的问题。尤其是在使用预训练扩散模型（如 Stable Dif...

视频模型 # DLoRAL # 视频超分辨率

7个月前

03790

Character.AI 推出 TalkingMachines：音频驱动的实时视频生成模型，打造“FaceTime 风格”AI 视频交互

知名 AI 角色平台 Character.AI 发布了一项引人注目的研究成果——TalkingMachines，一个基于扩散模型的新型自回归视频生成系统。该系统仅需一张静态图像和一段语音输入，即可生成...

视频模型 # Character.AI # TalkingMachines

7个月前

01790

加载更多

交互式世界生成模型 Yume：通过输入图像、文本或视频来创建一个动态、逼真且可交互的世界

浙大 × 阿里巴巴推出 OmniAvatar：首个支持音频驱动全身动画的可控虚拟人视频生成模型

新型扩散模型 Diffuman4D ：从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频

FantasyPortrait：基于DIT架构模型的多角色肖像动画生成框架

LightX2V：轻量级视频生成推理框架，统一支持多种模态输入

韩国科学技术院提出 ALG 方法：显著提升图生视频模型的动态性

PUSA V1.0：以500 美元成本超越 WAN-I2V-14B 的高效视频生成模型

清华大学推出SketchColour：基于扩散变换器的高效 2D 动画自动上色方案

StreamDiT：实现实时流式文本到视频生成的新一代扩散模型

LTX Studio为其开源视频生成模型 LTX Video 推出三款全新 LoRA控制模型，为开源视频模型带来前所未有的控制力

DLoRAL：一种兼顾细节与时间一致性的视频超分辨率新方法

Character.AI 推出 TalkingMachines：音频驱动的实时视频生成模型，打造“FaceTime 风格”AI 视频交互

Clawdbot/Moltbot

Higgsfield AI

Situation Monitor

Fogsight (雾象)

CivitAI

ITELLOU

视频模型

网址

Clawdbot/Moltbot

Higgsfield AI

Situation Monitor

Fogsight (雾象)

CivitAI

ITELLOU