视频模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

用于音频驱动的多人对话视频生成的新框架 MultiTalk：根据多路音频输入和提示生成包含互动的视频，同时确保唇部动作与音频同步

中山大学深圳校区、美团和香港科技大学的研究人员推出用于音频驱动的多人对话视频生成的新框架 MultiTalk，该框架能够根据多路音频输入和提示生成包含互动的视频，同时确保唇部动作与音频同步。项目主页...

视频模型 # MultiTalk # 多人对话视频生成

8个月前

01820

Wan-Animate：阿里通义实验室推出的统一人物动画与替换框架

阿里巴巴通义实验室 HumanAIGC 团队近日将推出 Wan-Animate —— 一个基于 Wan 系列模型构建的统一人物动画与角色替换框架。项目主页：https://humanaigc.git...

视频模型 # Wan-Animate # 阿里通义实验室

4个月前

01810

Character.AI 推出 TalkingMachines：音频驱动的实时视频生成模型，打造“FaceTime 风格”AI 视频交互

知名 AI 角色平台 Character.AI 发布了一项引人注目的研究成果——TalkingMachines，一个基于扩散模型的新型自回归视频生成系统。该系统仅需一张静态图像和一段语音输入，即可生成...

视频模型 # Character.AI # TalkingMachines

7个月前

01790

MiniMax-Remover：港中大等联合提出高效视频目标移除新方法

在视频编辑中，目标移除是一项关键任务：从视频中删除指定对象（如行人、车辆、水印），同时保持背景的视觉一致性与时间连贯性。然而，现有方法常面临三大挑战：生成伪影或“幻觉对象” 推理速度慢，依赖高步数采...

视频模型 # MiniMax-Remover

6个月前

01730

字节跳动提出OmniInsert：无需遮罩，任意对象都能自然插入视频

在影视后期、广告制作乃至虚拟内容创作中，“将一个新角色或物体自然地加入已有视频”是一项高频需求。传统方法依赖精确的遮罩标注、关键帧追踪和复杂的合成流程，成本高、耗时长。近期，基于扩散模型的技术为这一...

视频模型 # OmniInsert # 字节跳动 # 视频编辑

4个月前

01540

南大、复旦联合英伟达提出LongVie：可控超长视频生成突破1分钟，解决时间不一致难题

可控超长视频生成（如生成1分钟以上、场景与动作精准可控的视频）是AI生成领域的核心挑战——现有方法在短视频生成中表现尚可，但扩展到长视频时，常出现时间不一致（帧间突变、物体位置漂移）与视觉质量下降（颜...

视频模型 # LongVie # 视频生成

5个月前

01520

清华大学推出SketchColour：基于扩散变换器的高效 2D 动画自动上色方案

清华大学的研究人员提出了一种全新的 2D 动画着色方法——SketchColour。该方法基于扩散变换器（DiT）架构，能够将黑白草图序列自动转换为连贯的彩色动画，显著提升动画制作效率。项目主页：h...

视频模型 # 2D 动画自动上色 # SketchColour

7个月前

01490

LTX Studio为其开源视频生成模型 LTX Video 推出三款全新 LoRA控制模型，为开源视频模型带来前所未有的控制力

LTX Studio 为其开源视频生成模型 LTX Video 推出了三项全新的 LoRA 控制模块，让 AI 视频创作进入一个更具操控性与表现力的新阶段。 Depth Control: LTX-Vi...

视频模型 # LTX Studio # LTX Video

7个月前

01490

韩国科学技术院提出 ALG 方法：显著提升图生视频模型的动态性

图像到视频（Image-to-Video, I2V）模型近年来取得了长足进展，能够根据一张静态图像和文本提示生成动态视频，实现更强的视觉控制。然而，研究发现，这类模型往往生成的视频过于静态，动态性远不...

视频模型 # ALG # 图生视频

7个月前

01480

通义万相 Wan2.5-Preview 正式发布：原生支持音画同步的多模态视觉生成引擎

阿里通义实验室Wan项目组正式推出 Wan2.5-Preview——一个在架构层面实现革新、真正实现“音视频协同生成”的新一代视觉大模型。它不是简单的功能叠加，而是通过原生多模态统一架构，将文本、图...

视频模型 # Wan2.5-Preview

4个月前

01280

多模态扩散架构MoDA：用于生成具有任意身份和语音音频的“会说话的头像”

阿里达摩院、浙江大学、湖畔实验室的研究人员推出多模态扩散架构MoDA，用于生成具有任意身份和语音音频的“会说话的头像”（talking head）。项目主页：https://lixinyyang.g...

视频模型 # MoDA # 多模态

5个月前

01120

Midjourney 正式发布 V1 视频模型：从文本到视频，AI创作迈入新阶段

6月18日，Midjourney 宣布正式推出其首款视频生成模型 V1，标志着这家以图像生成闻名的 AI 公司，正式进军视频内容创作领域。这一更新不仅打通了原有的图文生成生态，还实现了从文本直接生成...

视频模型 # Midjourney

8个月前

01120

加载更多

用于音频驱动的多人对话视频生成的新框架 MultiTalk：根据多路音频输入和提示生成包含互动的视频，同时确保唇部动作与音频同步

Wan-Animate：阿里通义实验室推出的统一人物动画与替换框架

Character.AI 推出 TalkingMachines：音频驱动的实时视频生成模型，打造“FaceTime 风格”AI 视频交互

MiniMax-Remover：港中大等联合提出高效视频目标移除新方法

字节跳动提出OmniInsert：无需遮罩，任意对象都能自然插入视频

南大、复旦联合英伟达提出LongVie：可控超长视频生成突破1分钟，解决时间不一致难题

清华大学推出SketchColour：基于扩散变换器的高效 2D 动画自动上色方案

LTX Studio为其开源视频生成模型 LTX Video 推出三款全新 LoRA控制模型，为开源视频模型带来前所未有的控制力

韩国科学技术院提出 ALG 方法：显著提升图生视频模型的动态性

通义万相 Wan2.5-Preview 正式发布：原生支持音画同步的多模态视觉生成引擎

多模态扩散架构MoDA：用于生成具有任意身份和语音音频的“会说话的头像”

Midjourney 正式发布 V1 视频模型：从文本到视频，AI创作迈入新阶段

新QoderWork

Clawdbot/Moltbot

Situation Monitor

中国科技云数据胶囊

ITELLOU

CutCut

视频模型

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

中国科技云数据胶囊

ITELLOU

CutCut