视频模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

新EffectMaker：腾讯混元新作，无需微调即可“克隆”电影级特效，让普通人也能做 VFX 大师

“好莱坞大片里那些令人震撼的火焰、冰霜、能量波，曾经需要数百万美元和数年训练才能制作。现在，只需一段参考视频和一张照片，AI 就能为你‘克隆’出同样的奇迹。” 由腾讯混元 (Tencent HunY...

视频模型 # AI特效 # EffectMaker

2天前

080

Lightricks 双重重磅发布：LTX-2.3 模型进化与 LTX Desktop 开源编辑器，本地视频生成时代正式来临

Lightricks 今日宣布同步推出两项里程碑式产品：LTX-2.3，一个经过实战打磨、架构全面升级的视频生成模型；以及 LTX Desktop，一款直接构建于该引擎之上的生产级本地视频编辑器。这...

早报视频模型 # Lightricks # LTX Desktop # LTX-2.3

6天前

01240

Helios：北大与字节联手打造 14B 实时长视频模型，单卡 19.5 FPS 刷新生成速度纪录

在 AI 视频生成领域，长期存在一个“不可能三角”：生成速度快、视频时长长、画面质量高，三者往往难以兼得。主流模型要么只能生成几秒的短视频，要么需要数十分钟才能渲染出几秒钟的画面，且长视频极易出现人物...

视频模型 # Helios # 实时长视频模型

1周前

0940

Kiwi-Edit：开源视频编辑新标杆，首创“指令 + 参考图”双模驱动，打破商业模型数据垄断

在 AI 视频编辑领域，我们常面临一个尴尬境地：文字指令难以描述精确的视觉细节（如“把那辆车换成特定的红色法拉利”），而现有的参考图引导编辑又受限于高质量训练数据的极度匮乏。 Kiwi-Edit 是由...

视频模型 # Kiwi-Edit # 视频编辑

1周前

0180

虚拟数字人项目DreamID-Omni：清华&字节联合发布统一框架，一人一模型搞定“换脸、变声、让照片说话”

想象一下：你上传一张爱因斯坦的照片和一段录音，AI 就能生成他在办公室里发表演讲的完整视频，口型完美匹配，声音惟妙惟肖；或者，你想把电影片段中的主角换成自己，连声音也一并替换，动作表情却原汁原味。这...

视频模型 # DreamID-Omni # 数字人

2周前

0700

FlowRVS：颠覆“定位 - 分割”旧范式，用“视频变形”魔法实现指代视频对象分割新 SOTA

想象这样一个场景：视频里有两只狗在玩耍，你对 AI 说：“帮我追踪那只正在跳的白色狗。”或者在一群人中，你指定：“锁定那个先骑自行车进画面的男人。” 这种用自然语言描述来指定视频中特定对象，并让 AI...

视频模型 # FlowRVS # 分割模型

2周前

0450

Capybara：统一视觉创作模型，一个模型搞定文生图、视频生成与全能编辑

在当前的 AI 视觉创作领域，我们正陷入一种“工具碎片化”的困境：生成图片用 Midjourney，生成视频换 Runway，修图得开 Photoshop，剪视频又要另一套流程。这些工具不仅接口割裂...

视频模型 # Capybara # 统一视觉创作模型

3周前

0610

让视频"无中生有"的AI魔术师！PISCO：基于稀疏控制的精确视频实例插入技术

想象一下，你拍了一段空无一人的街道视频，现在想把一只奔跑的猫放进画面里——不仅要让它看起来真实，还要让它和周围环境产生互动：地上要有影子，经过水坑要有倒影，被路灯照到要反光。更神奇的是，你只需要告诉A...

视频模型 # PISCO # 视频编辑

3周前

0120

复杂运动、多模态参考、双声道音频！字节跳动正式发布Seedance 2.0：统一多模态架构，支持导演级编辑的工业级音视频生成

字节跳动正式推出新一代视频创作模型 Seedance 2.0。作为迭代升级后的重磅版本，它采用全新统一的多模态音视频联合生成架构，全面支持文本、图片、音频、视频四种模态输入，集成了当前行业内覆盖面最广...

早报视频模型 # Seedance 2.0 # 字节跳动

4周前

0130

Soul AI Lab推出SoulX-FlashTalk ：140 亿参数模型实现 0.87 秒启动、32 FPS 实时数字人直播

当前 AI 数字人技术面临一个根本矛盾：高保真生成与实时性难以兼得。顶尖模型虽能生成逼真口型与表情，但因依赖多步迭代去噪，生成一秒钟视频常需数秒甚至更久，无法用于视频通话、直播带货等实时交互场景。更严...

视频模型 # Soul AI Lab # SoulX-FlashTalk # 数字人

4周前

0300

VideoMaMa：基于扩散模型的视频抠图新SOTA，粗糙掩码一键生成高精度Alpha遮罩

高丽大学、Adobe Research 与 KAIST AI 联合提出 VideoMaMa（Video Mask-to-Matte Model），一种基于 Stable Video Diffusion...

视频模型 # VideoMaMa # 视频抠图

1个月前

0180

InteractAvatar：文本驱动的可控说话化身框架，实现高保真场景化人-物交互

清华大学联合腾讯混元项目组研发的InteractAvatar，是一款创新的双流DiT（扩散变换器）框架，首次让说话虚拟化身突破简单手势局限，实现基于静态场景的文本驱动可控人-物交互。该模型能从参考图像...

视频模型 # InteractAvatar # 数字人