视频模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

Kiwi-Edit：开源视频编辑新标杆，首创“指令 + 参考图”双模驱动，打破商业模型数据垄断

在 AI 视频编辑领域，我们常面临一个尴尬境地：文字指令难以描述精确的视觉细节（如“把那辆车换成特定的红色法拉利”），而现有的参考图引导编辑又受限于高质量训练数据的极度匮乏。 Kiwi-Edit 是由...

视频模型 # Kiwi-Edit # 视频编辑

1个月前

0420

虚拟数字人项目DreamID-Omni：清华&字节联合发布统一框架，一人一模型搞定“换脸、变声、让照片说话”

想象一下：你上传一张爱因斯坦的照片和一段录音，AI 就能生成他在办公室里发表演讲的完整视频，口型完美匹配，声音惟妙惟肖；或者，你想把电影片段中的主角换成自己，连声音也一并替换，动作表情却原汁原味。这...

视频模型 # DreamID-Omni # 数字人

1个月前

0880

FlowRVS：颠覆“定位 - 分割”旧范式，用“视频变形”魔法实现指代视频对象分割新 SOTA

想象这样一个场景：视频里有两只狗在玩耍，你对 AI 说：“帮我追踪那只正在跳的白色狗。”或者在一群人中，你指定：“锁定那个先骑自行车进画面的男人。” 这种用自然语言描述来指定视频中特定对象，并让 AI...

视频模型 # FlowRVS # 分割模型

1个月前

0570

Capybara：统一视觉创作模型，一个模型搞定文生图、视频生成与全能编辑

在当前的 AI 视觉创作领域，我们正陷入一种“工具碎片化”的困境：生成图片用 Midjourney，生成视频换 Runway，修图得开 Photoshop，剪视频又要另一套流程。这些工具不仅接口割裂...

视频模型 # Capybara # 统一视觉创作模型

2个月前

0910

让视频"无中生有"的AI魔术师！PISCO：基于稀疏控制的精确视频实例插入技术

想象一下，你拍了一段空无一人的街道视频，现在想把一只奔跑的猫放进画面里——不仅要让它看起来真实，还要让它和周围环境产生互动：地上要有影子，经过水坑要有倒影，被路灯照到要反光。更神奇的是，你只需要告诉A...

视频模型 # PISCO # 视频编辑

2个月前

0190

复杂运动、多模态参考、双声道音频！字节跳动正式发布Seedance 2.0：统一多模态架构，支持导演级编辑的工业级音视频生成

字节跳动正式推出新一代视频创作模型 Seedance 2.0。作为迭代升级后的重磅版本，它采用全新统一的多模态音视频联合生成架构，全面支持文本、图片、音频、视频四种模态输入，集成了当前行业内覆盖面最广...

早报视频模型 # Seedance 2.0 # 字节跳动

2个月前

0170

Soul AI Lab推出SoulX-FlashTalk ：140 亿参数模型实现 0.87 秒启动、32 FPS 实时数字人直播

当前 AI 数字人技术面临一个根本矛盾：高保真生成与实时性难以兼得。顶尖模型虽能生成逼真口型与表情，但因依赖多步迭代去噪，生成一秒钟视频常需数秒甚至更久，无法用于视频通话、直播带货等实时交互场景。更严...

视频模型 # Soul AI Lab # SoulX-FlashTalk # 数字人

2个月前

0310

VideoMaMa：基于扩散模型的视频抠图新SOTA，粗糙掩码一键生成高精度Alpha遮罩

高丽大学、Adobe Research 与 KAIST AI 联合提出 VideoMaMa（Video Mask-to-Matte Model），一种基于 Stable Video Diffusion...

视频模型 # VideoMaMa # 视频抠图

2个月前

0210

InteractAvatar：文本驱动的可控说话化身框架，实现高保真场景化人-物交互

清华大学联合腾讯混元项目组研发的InteractAvatar，是一款创新的双流DiT（扩散变换器）框架，首次让说话虚拟化身突破简单手势局限，实现基于静态场景的文本驱动可控人-物交互。该模型能从参考图像...

视频模型 # InteractAvatar # 数字人

2个月前

0590

模思智能推出 MOVA：开源同步音视频生成基座模型，打破“无声视频”困局

模思智能正式开源 MOVA（MOSS Video and Audio）——一款专注于原生同步生成视频与音频的基座模型。针对当前主流系统（如 Sora 2、Veo 3）普遍采用的“先画后音”级联流程，M...

视频模型 # MOVA # 模思智能

2个月前

0200

UniVideo：滑铁卢大学与快手推出统一视频生成与编辑模型，支持理解、生成、编辑一体化

长久以来，视频 AI 能力被割裂为多个独立任务：理解：靠视觉语言模型（如 Qwen-VL）生成：依赖扩散模型（如 Sora、HunyuanVideo）编辑：需专门的编辑网络或掩码引导这种碎片化...

视频模型 # UniVideo # 视频生成 # 视频编辑

3个月前

0260

Lightricks发布LTX-2：首个基于 DiT 的开源音视频基础模型

Lightricks发布了首个基于 Diffusion Transformer（DiT）架构的开源音视频联合生成模型LTX-2。它在一个统一框架中集成了现代视频生成的核心能力：同步的音频与视频输出...

视频模型 # Lightricks # LTX-2 # 音视频模型

3个月前

0430

加载更多

Kiwi-Edit：开源视频编辑新标杆，首创“指令 + 参考图”双模驱动，打破商业模型数据垄断

虚拟数字人项目DreamID-Omni：清华&字节联合发布统一框架，一人一模型搞定“换脸、变声、让照片说话”

FlowRVS：颠覆“定位 - 分割”旧范式，用“视频变形”魔法实现指代视频对象分割新 SOTA

Capybara：统一视觉创作模型，一个模型搞定文生图、视频生成与全能编辑

让视频"无中生有"的AI魔术师！PISCO：基于稀疏控制的精确视频实例插入技术

复杂运动、多模态参考、双声道音频！字节跳动正式发布Seedance 2.0：统一多模态架构，支持导演级编辑的工业级音视频生成

Soul AI Lab推出SoulX-FlashTalk ：140 亿参数模型实现 0.87 秒启动、32 FPS 实时数字人直播

VideoMaMa：基于扩散模型的视频抠图新SOTA，粗糙掩码一键生成高精度Alpha遮罩

InteractAvatar：文本驱动的可控说话化身框架，实现高保真场景化人-物交互

模思智能推出 MOVA：开源同步音视频生成基座模型，打破“无声视频”困局

UniVideo：滑铁卢大学与快手推出统一视频生成与编辑模型，支持理解、生成、编辑一体化

Lightricks发布LTX-2：首个基于 DiT 的开源音视频基础模型

S.H.I.T

新Flova

ITELLOU

Tripo

即梦 CLI

CoPaw

视频模型

网址

S.H.I.T

新Flova

ITELLOU

Tripo

即梦 CLI

CoPaw