SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    视频模型

    共 165 篇文章
    用于文生视频、图生视频、视频编辑的模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    清华大学 & 字节跳动联合推出 HuMo:一个以人为中心的多模态视频生成框架

    清华大学 & 字节跳动联合推出 HuMo:一个以人为中心的多模态视频生成框架

    一段文字描述 + 一张人物照片 + 一段语音音频,能否生成一个口型同步、动作自然、形象一致的高质量人物视频? 现在,可以了。 清华大学与字节跳动智能创作团队合作推出 HuMo(Human-Centri...
    视频模型# HuMo# 字节跳动
    5个月前
    0940
    新型视频合成方法GenCompositor:实现轨迹可控的视频级前景融合

    新型视频合成方法GenCompositor:实现轨迹可控的视频级前景融合

    由北京大学经济与管理学院、腾讯PCG ARC实验室、大湾区大学与香港中文大学联合提出的新型视频合成方法 GenCompositor,为视频创作中的“前景-背景融合”问题提供了一种自动化解决方案。该方法...
    视频模型# GenCompositor# 视频合成
    5个月前
    0790
    Pusa Wan2.2 V1.0:将开创性的 Pusa 范式扩展到先进的 Wan2.2-T2V-A14B 架构

    Pusa Wan2.2 V1.0:将开创性的 Pusa 范式扩展到先进的 Wan2.2-T2V-A14B 架构

    Pusa Wan2.2 V1.0 将开创性的 Pusa 范式扩展到先进的 Wan2.2-T2V-A14B 架构,该架构采用 MoE DiT 设计,包含独立的噪声和高噪声模型。这种架构提供了增强的质量控...
    视频模型# Pusa Wan2.2 V1.0# Wan2.2-T2V-A14B
    5个月前
    01840
    腾讯微信视觉团队发布 Stand-In:轻量级身份保持视频生成新框架

    腾讯微信视觉团队发布 Stand-In:轻量级身份保持视频生成新框架

    在文本到视频(T2V)生成领域,一个长期存在的难题是:如何让生成的视频中的人物始终“长成你想要的样子”? 尽管现有模型能生成流畅、高质量的视频,但在身份一致性(identity-preserving...
    视频模型# Stand-In# 视频生成框架
    5个月前
    04600
    腾讯发布混元世界模型 - Voyager:单图生成 3D 场景,实现长距离沉浸式探索

    腾讯发布混元世界模型 - Voyager:单图生成 3D 场景,实现长距离沉浸式探索

    腾讯今天正式推出混元世界模型 - Voyager(HunyuanWorld-Voyager),这是一款创新的视频扩散框架。其核心能力在于:基于单张输入图像即可生成具备世界一致性的 3D 点云,支持用户...
    视频模型# HunyuanWorld-Voyager# 混元世界模型 - Voyager# 腾讯
    5个月前
    0700
    字节跳动发布OmniHuman-1.5:模拟人类双重认知,生成语义连贯的高逼真角色动画

    字节跳动发布OmniHuman-1.5:模拟人类双重认知,生成语义连贯的高逼真角色动画

    字节跳动近期推出新型视频角色生成框架 OmniHuman-1.5,核心突破在于模拟人类“系统1(快速直觉反应)+系统2(缓慢深思规划)”的双重认知过程,实现从“单一图像+语音轨道”到“物理逼真、语义连...
    视频模型# OmniHuman-1.5# 字节跳动
    5个月前
    0720
    InfiniteTalk:支持稀疏帧输入的全动态音频驱动视频生成,实现全身协调的说话视频生成

    InfiniteTalk:支持稀疏帧输入的全动态音频驱动视频生成,实现全身协调的说话视频生成

    在虚拟人、影视后期、跨语言内容本地化等场景中,理想的配音技术不仅要实现精准的唇部同步,还需让头部运动、面部表情、身体姿态自然地跟随语音节奏变化,同时保持人物身份一致性。 项目主页:https://me...
    视频模型# InfiniteTalk# 对口型
    5个月前
    01020
    腾讯开源混元视频音效生成模型HunyuanVideo-Foley:端到端TV2A模型,为创作者打造高保真音视频体验

    腾讯开源混元视频音效生成模型HunyuanVideo-Foley:端到端TV2A模型,为创作者打造高保真音视频体验

    腾讯今天正式开源 HunyuanVideo-Foley —— 一个端到端的文本-视频-音频(Text-Video-to-Audio, TV2A)生成模型,专注于为视频内容自动生成高保真、语义对齐的音效...
    视频模型# HunyuanVideo-Foley# 混元视频音效生成模型# 腾讯
    5个月前
    0930
    阿里开源 Wan2.2-S2V-14B:输入一张图 + 一段音频,生成电影级数字人视频

    阿里开源 Wan2.2-S2V-14B:输入一张图 + 一段音频,生成电影级数字人视频

    阿里Wan团队正式开源音频驱动视频生成模型Wan2.2-S2V-14B。这款模型打破了传统视频生成对复杂输入的依赖——用户仅需提供一张静态图像与一条音频,即可生成面部表情自然、口型精准同步、肢体动作流...
    视频模型# Wan2.2-S2V-14B# 数字人# 阿里
    5个月前
    04910
    字节跳动 Waver 项目组推出一体化视频生成模型Waver 1.0:同时支持文生图、图生视频及文生图生成

    字节跳动 Waver 项目组推出一体化视频生成模型Waver 1.0:同时支持文生图、图生视频及文生图生成

    字节跳动 Waver 项目组近期正式推出 Waver 1.0 一体化视频生成模型,凭借多模态生成能力、高分辨率支持及卓越的运动建模效果,在视频生成领域实现重要突破,为工业级视频创作需求提供了全新解决方...
    视频模型# Waver 1.0# 字节跳动# 视频生成
    5个月前
    06080
    阿里淘天 推出基于 DiT 的生成式视频修复方法Vivid-VR:概念蒸馏 + 双分支控制实现高纹理与时间连贯

    阿里淘天 推出基于 DiT 的生成式视频修复方法Vivid-VR:概念蒸馏 + 双分支控制实现高纹理与时间连贯

    老旧视频模糊、噪点多、细节丢失,能否通过 AI 实现自然且真实的画质增强? 传统视频修复方法往往在提升分辨率的同时,引入伪影、纹理失真或帧间抖动。而基于扩散模型的新一代生成技术,虽然具备强大的细节生成...
    视频模型# Vivid-VR# 视频修复
    5个月前
    04150
    解决高分辨率生成痛点:CineScale 新范式优化扩散模型,支持 8K 图像与 4K 视频合成

    解决高分辨率生成痛点:CineScale 新范式优化扩散模型,支持 8K 图像与 4K 视频合成

    视觉扩散模型虽已取得显著进展,但受限于“高分辨率训练数据稀缺”与“计算资源消耗大”,多数模型只能在低分辨率(如512×512)下训练,导致生成高保真图像、视频时容易出现“重复模式”“细节模糊”等问题...
    视频模型# CineScale# 高分辨率生成
    5个月前
    03150
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Awesome Clawdbot(Moltbot) Skills

    新Awesome Clawdbot(Moltbot) Skills

    社区维护了一份名为 Awesome Clawdbot (Moltbot) Skills 的精选技能集合。该列表收录了 565 项以上 来自 ClawdHub(Moltbot 官方公共技能注册表)的技能,并按功能类别组织,便于浏览与安装。
    查看完整榜单