SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    视频模型

    共 187 篇文章
    用于文生视频、图生视频、视频编辑的模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Kiwi-Edit:开源视频编辑新标杆,首创“指令 + 参考图”双模驱动,打破商业模型数据垄断

    Kiwi-Edit:开源视频编辑新标杆,首创“指令 + 参考图”双模驱动,打破商业模型数据垄断

    在 AI 视频编辑领域,我们常面临一个尴尬境地:文字指令难以描述精确的视觉细节(如“把那辆车换成特定的红色法拉利”),而现有的参考图引导编辑又受限于高质量训练数据的极度匮乏。 Kiwi-Edit 是由...
    视频模型# Kiwi-Edit# 视频编辑
    1个月前
    0420
    虚拟数字人项目DreamID-Omni:清华&字节联合发布统一框架,一人一模型搞定“换脸、变声、让照片说话”

    虚拟数字人项目DreamID-Omni:清华&字节联合发布统一框架,一人一模型搞定“换脸、变声、让照片说话”

    想象一下:你上传一张爱因斯坦的照片和一段录音,AI 就能生成他在办公室里发表演讲的完整视频,口型完美匹配,声音惟妙惟肖;或者,你想把电影片段中的主角换成自己,连声音也一并替换,动作表情却原汁原味。 这...
    视频模型# DreamID-Omni# 数字人
    1个月前
    0880
    FlowRVS:颠覆“定位 - 分割”旧范式,用“视频变形”魔法实现指代视频对象分割新 SOTA

    FlowRVS:颠覆“定位 - 分割”旧范式,用“视频变形”魔法实现指代视频对象分割新 SOTA

    想象这样一个场景:视频里有两只狗在玩耍,你对 AI 说:“帮我追踪那只正在跳的白色狗。”或者在一群人中,你指定:“锁定那个先骑自行车进画面的男人。” 这种用自然语言描述来指定视频中特定对象,并让 AI...
    视频模型# FlowRVS# 分割模型
    1个月前
    0570
    Capybara:统一视觉创作模型,一个模型搞定文生图、视频生成与全能编辑

    Capybara:统一视觉创作模型,一个模型搞定文生图、视频生成与全能编辑

    在当前的 AI 视觉创作领域,我们正陷入一种“工具碎片化”的困境:生成图片用 Midjourney,生成视频换 Runway,修图得开 Photoshop,剪视频又要另一套流程。这些工具不仅接口割裂...
    视频模型# Capybara# 统一视觉创作模型
    2个月前
    0910
    让视频

    让视频"无中生有"的AI魔术师!PISCO:基于稀疏控制的精确视频实例插入技术

    想象一下,你拍了一段空无一人的街道视频,现在想把一只奔跑的猫放进画面里——不仅要让它看起来真实,还要让它和周围环境产生互动:地上要有影子,经过水坑要有倒影,被路灯照到要反光。更神奇的是,你只需要告诉A...
    视频模型# PISCO# 视频编辑
    2个月前
    0190
    复杂运动、多模态参考、双声道音频!字节跳动正式发布Seedance 2.0:统一多模态架构, 支持导演级编辑的工业级音视频生成

    复杂运动、多模态参考、双声道音频!字节跳动正式发布Seedance 2.0:统一多模态架构, 支持导演级编辑的工业级音视频生成

    字节跳动正式推出新一代视频创作模型 Seedance 2.0。作为迭代升级后的重磅版本,它采用全新统一的多模态音视频联合生成架构,全面支持文本、图片、音频、视频四种模态输入,集成了当前行业内覆盖面最广...
    早报视频模型# Seedance 2.0# 字节跳动
    2个月前
    0170
    Soul AI Lab推出SoulX-FlashTalk :140 亿参数模型实现 0.87 秒启动、32 FPS 实时数字人直播

    Soul AI Lab推出SoulX-FlashTalk :140 亿参数模型实现 0.87 秒启动、32 FPS 实时数字人直播

    当前 AI 数字人技术面临一个根本矛盾:高保真生成与实时性难以兼得。顶尖模型虽能生成逼真口型与表情,但因依赖多步迭代去噪,生成一秒钟视频常需数秒甚至更久,无法用于视频通话、直播带货等实时交互场景。更严...
    视频模型# Soul AI Lab# SoulX-FlashTalk# 数字人
    2个月前
    0310
    VideoMaMa:基于扩散模型的视频抠图新SOTA,粗糙掩码一键生成高精度Alpha遮罩

    VideoMaMa:基于扩散模型的视频抠图新SOTA,粗糙掩码一键生成高精度Alpha遮罩

    高丽大学、Adobe Research 与 KAIST AI 联合提出 VideoMaMa(Video Mask-to-Matte Model),一种基于 Stable Video Diffusion...
    视频模型# VideoMaMa# 视频抠图
    2个月前
    0210
    InteractAvatar:文本驱动的可控说话化身框架,实现高保真场景化人-物交互

    InteractAvatar:文本驱动的可控说话化身框架,实现高保真场景化人-物交互

    清华大学联合腾讯混元项目组研发的InteractAvatar,是一款创新的双流DiT(扩散变换器)框架,首次让说话虚拟化身突破简单手势局限,实现基于静态场景的文本驱动可控人-物交互。该模型能从参考图像...
    视频模型# InteractAvatar# 数字人
    2个月前
    0590
    模思智能推出 MOVA:开源同步音视频生成基座模型,打破“无声视频”困局

    模思智能推出 MOVA:开源同步音视频生成基座模型,打破“无声视频”困局

    模思智能正式开源 MOVA(MOSS Video and Audio)——一款专注于原生同步生成视频与音频的基座模型。针对当前主流系统(如 Sora 2、Veo 3)普遍采用的“先画后音”级联流程,M...
    视频模型# MOVA# 模思智能
    2个月前
    0200
    UniVideo:滑铁卢大学与快手推出统一视频生成与编辑模型,支持理解、生成、编辑一体化

    UniVideo:滑铁卢大学与快手推出统一视频生成与编辑模型,支持理解、生成、编辑一体化

    长久以来,视频 AI 能力被割裂为多个独立任务: 理解:靠视觉语言模型(如 Qwen-VL) 生成:依赖扩散模型(如 Sora、HunyuanVideo) 编辑:需专门的编辑网络或掩码引导 这种碎片化...
    视频模型# UniVideo# 视频生成# 视频编辑
    3个月前
    0260
    Lightricks发布LTX-2:首个基于 DiT 的开源音视频基础模型

    Lightricks发布LTX-2:首个基于 DiT 的开源音视频基础模型

    Lightricks发布了首个基于 Diffusion Transformer(DiT) 架构的开源音视频联合生成模型LTX-2。它在一个统一框架中集成了现代视频生成的核心能力:同步的音频与视频输出...
    视频模型# Lightricks# LTX-2# 音视频模型
    3个月前
    0430
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Flova

    新Flova

    Flova AI 最近宣布集成字节跳动最新的视频生成模型——Seedance 2.0。这不仅仅是一个新模型的上线,更意味着普通创作者现在也能轻松制作出长达 60 至 90 秒、角色稳定、剧情连贯的电影级短剧。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    即梦 CLI

    即梦 CLI

    即梦 CLI (Jimeng CLI) 是字节跳动官方推出的面向 AI Agent 的命令行工具包。它打破了图形界面的限制,让任何 AI 智能体(如基于 OpenClaw 的助手)都能直接调用即梦强大的 Seedance 2.0 旗舰模型,实现图片与视频的自动化生成。
    CoPaw

    CoPaw

    阿里云旗下阿里桌面 Agent 工具 CoPaw 正式开源,CoPaw 原生支持钉钉、飞书、QQ、Discord、iMessage 等聊天软件和平台,内置了多种 Skills,用户可一键本地部署也可通过阿里云计算巢和魔搭社区创空间实现一键云端部署,并调用千问系列等主流模型,是业界部署门槛最低的 Agent 工具之一。
    查看完整榜单