SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    视频模型

    共 183 篇文章
    用于文生视频、图生视频、视频编辑的模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    阿里开源 Wan2.2-S2V-14B:输入一张图 + 一段音频,生成电影级数字人视频

    阿里开源 Wan2.2-S2V-14B:输入一张图 + 一段音频,生成电影级数字人视频

    阿里Wan团队正式开源音频驱动视频生成模型Wan2.2-S2V-14B。这款模型打破了传统视频生成对复杂输入的依赖——用户仅需提供一张静态图像与一条音频,即可生成面部表情自然、口型精准同步、肢体动作流...
    视频模型# Wan2.2-S2V-14B# 数字人# 阿里
    7个月前
    05380
    字节跳动 Waver 项目组推出一体化视频生成模型Waver 1.0:同时支持文生图、图生视频及文生图生成

    字节跳动 Waver 项目组推出一体化视频生成模型Waver 1.0:同时支持文生图、图生视频及文生图生成

    字节跳动 Waver 项目组近期正式推出 Waver 1.0 一体化视频生成模型,凭借多模态生成能力、高分辨率支持及卓越的运动建模效果,在视频生成领域实现重要突破,为工业级视频创作需求提供了全新解决方...
    视频模型# Waver 1.0# 字节跳动# 视频生成
    7个月前
    06470
    阿里淘天 推出基于 DiT 的生成式视频修复方法Vivid-VR:概念蒸馏 + 双分支控制实现高纹理与时间连贯

    阿里淘天 推出基于 DiT 的生成式视频修复方法Vivid-VR:概念蒸馏 + 双分支控制实现高纹理与时间连贯

    老旧视频模糊、噪点多、细节丢失,能否通过 AI 实现自然且真实的画质增强? 传统视频修复方法往往在提升分辨率的同时,引入伪影、纹理失真或帧间抖动。而基于扩散模型的新一代生成技术,虽然具备强大的细节生成...
    视频模型# Vivid-VR# 视频修复
    7个月前
    04530
    解决高分辨率生成痛点:CineScale 新范式优化扩散模型,支持 8K 图像与 4K 视频合成

    解决高分辨率生成痛点:CineScale 新范式优化扩散模型,支持 8K 图像与 4K 视频合成

    视觉扩散模型虽已取得显著进展,但受限于“高分辨率训练数据稀缺”与“计算资源消耗大”,多数模型只能在低分辨率(如512×512)下训练,导致生成高保真图像、视频时容易出现“重复模式”“细节模糊”等问题...
    视频模型# CineScale# 高分辨率生成
    7个月前
    04320
    南大、复旦联合英伟达提出LongVie:可控超长视频生成突破1分钟,解决时间不一致难题

    南大、复旦联合英伟达提出LongVie:可控超长视频生成突破1分钟,解决时间不一致难题

    可控超长视频生成(如生成1分钟以上、场景与动作精准可控的视频)是AI生成领域的核心挑战——现有方法在短视频生成中表现尚可,但扩展到长视频时,常出现时间不一致(帧间突变、物体位置漂移)与视觉质量下降(颜...
    视频模型# LongVie# 视频生成
    7个月前
    01610
    多模态扩散架构MoDA:用于生成具有任意身份和语音音频的“会说话的头像”

    多模态扩散架构MoDA:用于生成具有任意身份和语音音频的“会说话的头像”

    阿里达摩院、浙江大学、湖畔实验室的研究人员推出多模态扩散架构MoDA,用于生成具有任意身份和语音音频的“会说话的头像”(talking head)。 项目主页:https://lixinyyang.g...
    视频模型# MoDA# 多模态
    8个月前
    01190
    InfiniteTalk:支持稀疏帧输入的全动态音频驱动视频生成,实现全身协调的说话视频生成

    InfiniteTalk:支持稀疏帧输入的全动态音频驱动视频生成,实现全身协调的说话视频生成

    在虚拟人、影视后期、跨语言内容本地化等场景中,理想的配音技术不仅要实现精准的唇部同步,还需让头部运动、面部表情、身体姿态自然地跟随语音节奏变化,同时保持人物身份一致性。 项目主页:https://me...
    视频模型# InfiniteTalk# 对口型
    7个月前
    01100
     ToonComposer:通过生成式后关键帧(post-keyframing)阶段简化卡通制作流程

     ToonComposer:通过生成式后关键帧(post-keyframing)阶段简化卡通制作流程

    香港中文大学、腾讯PCG ARC Lab和北京大学的研究人员推出 ToonComposer ,通过生成式后关键帧(post-keyframing)阶段简化卡通制作流程。传统的卡通和动画制作涉及关键帧绘...
    视频模型# ToonComposer# 卡通制作
    8个月前
    01,1400
    视频处理引擎ViPE:用于从普通视频中估计相机运动、相机内参以及密集的度量深度图

    视频处理引擎ViPE:用于从普通视频中估计相机运动、相机内参以及密集的度量深度图

    英伟达、多伦多大学、矢量研究所和德克萨斯大学奥斯汀分校的研究人员推出视频处理引擎ViPE(Video Pose Engine) ,用于从普通视频中估计相机运动、相机内参以及密集的度量深度图,能够从普通...
    视频模型# ViPE# 视频处理引擎
    8个月前
    03020
    StableAvatar:首个端到端生成无限长度虚拟人视频的扩散模型

    StableAvatar:首个端到端生成无限长度虚拟人视频的扩散模型

    你是否曾想过,仅凭一张静态照片和一段语音,就能让照片中的人物“开口说话”,并持续数分钟自然表达?这正是音频驱动虚拟人视频生成(Audio-Driven Talking Head Generation...
    视频模型# StableAvatar# 虚拟人
    8个月前
    05310
    阿里发布 Omni-Effects:首个支持空间可控复合特效生成的统一框架

    阿里发布 Omni-Effects:首个支持空间可控复合特效生成的统一框架

    在现代电影与视频制作中,视觉特效(VFX)是实现创意表达的核心工具。然而,传统 VFX 制作成本高昂、周期长,依赖专业团队和复杂软件。 近年来,AI 视频生成模型为 VFX 提供了更具成本效益的替代方...
    视频模型# Omni-Effects# 视觉特效
    8个月前
    02380
    腾讯微信视觉团队发布 Stand-In:轻量级身份保持视频生成新框架

    腾讯微信视觉团队发布 Stand-In:轻量级身份保持视频生成新框架

    在文本到视频(T2V)生成领域,一个长期存在的难题是:如何让生成的视频中的人物始终“长成你想要的样子”? 尽管现有模型能生成流畅、高质量的视频,但在身份一致性(identity-preserving...
    视频模型# Stand-In# 视频生成框架
    7个月前
    05370
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    360龙虾卫士

    360龙虾卫士

    360推出了专门针对OpenClaw安全风险的防护系统——“360龙虾卫士”。“360龙虾卫士”作为360安全龙虾的原生安全组件,通过虚拟化沙箱(WSL)隔离运行环境,将智能体执行空间与用户数据进行分离,并借助AI安全引擎识别恶意技能、异常指令以及潜在漏洞,从而主动拦截技能投毒、提示词注入等攻击行为。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    TapNow

    TapNow

    TapNow是一个面向创作者的专业级 AI 视觉内容平台,支持从脚本撰写、分镜头设计到高保真成片输出的完整流程,单人即可在 1–3 天内完成传统需 4–6 周的影视级项目。
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    CC-Connect

    CC-Connect

    CC-Connect 是一款轻量桥接工具,能把运行在本地设备上的 AI Agent,接入你日常使用的即时通讯软件。
    查看完整榜单