视频模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

清华大学 & 字节跳动联合推出 HuMo：一个以人为中心的多模态视频生成框架

一段文字描述 + 一张人物照片 + 一段语音音频，能否生成一个口型同步、动作自然、形象一致的高质量人物视频？现在，可以了。清华大学与字节跳动智能创作团队合作推出 HuMo（Human-Centri...

视频模型 # HuMo # 字节跳动

3个月前

0940

新型视频合成方法GenCompositor：实现轨迹可控的视频级前景融合

由北京大学经济与管理学院、腾讯PCG ARC实验室、大湾区大学与香港中文大学联合提出的新型视频合成方法 GenCompositor，为视频创作中的“前景-背景融合”问题提供了一种自动化解决方案。该方法...

视频模型 # GenCompositor # 视频合成

3个月前

0720

Pusa Wan2.2 V1.0：将开创性的 Pusa 范式扩展到先进的 Wan2.2-T2V-A14B 架构

Pusa Wan2.2 V1.0 将开创性的 Pusa 范式扩展到先进的 Wan2.2-T2V-A14B 架构，该架构采用 MoE DiT 设计，包含独立的噪声和高噪声模型。这种架构提供了增强的质量控...

视频模型 # Pusa Wan2.2 V1.0 # Wan2.2-T2V-A14B

3个月前

01590

腾讯发布混元世界模型 - Voyager：单图生成 3D 场景，实现长距离沉浸式探索

腾讯今天正式推出混元世界模型 - Voyager（HunyuanWorld-Voyager），这是一款创新的视频扩散框架。其核心能力在于：基于单张输入图像即可生成具备世界一致性的 3D 点云，支持用户...

视频模型 # HunyuanWorld-Voyager # 混元世界模型 - Voyager # 腾讯

4个月前

0660

字节跳动发布OmniHuman-1.5：模拟人类双重认知，生成语义连贯的高逼真角色动画

字节跳动近期推出新型视频角色生成框架 OmniHuman-1.5，核心突破在于模拟人类“系统1（快速直觉反应）+系统2（缓慢深思规划）”的双重认知过程，实现从“单一图像+语音轨道”到“物理逼真、语义连...

视频模型 # OmniHuman-1.5 # 字节跳动

4个月前

0700

腾讯开源混元视频音效生成模型HunyuanVideo-Foley：端到端TV2A模型，为创作者打造高保真音视频体验

腾讯今天正式开源 HunyuanVideo-Foley —— 一个端到端的文本-视频-音频（Text-Video-to-Audio, TV2A）生成模型，专注于为视频内容自动生成高保真、语义对齐的音效...

视频模型 # HunyuanVideo-Foley # 混元视频音效生成模型 # 腾讯

4个月前

0900

阿里开源 Wan2.2-S2V-14B：输入一张图 + 一段音频，生成电影级数字人视频

阿里Wan团队正式开源音频驱动视频生成模型Wan2.2-S2V-14B。这款模型打破了传统视频生成对复杂输入的依赖——用户仅需提供一张静态图像与一条音频，即可生成面部表情自然、口型精准同步、肢体动作流...

视频模型 # Wan2.2-S2V-14B # 数字人 # 阿里

4个月前

04450

字节跳动 Waver 项目组推出一体化视频生成模型Waver 1.0：同时支持文生图、图生视频及文生图生成

字节跳动 Waver 项目组近期正式推出 Waver 1.0 一体化视频生成模型，凭借多模态生成能力、高分辨率支持及卓越的运动建模效果，在视频生成领域实现重要突破，为工业级视频创作需求提供了全新解决方...

视频模型 # Waver 1.0 # 字节跳动 # 视频生成

4个月前

05660

阿里淘天推出基于 DiT 的生成式视频修复方法Vivid-VR：概念蒸馏 + 双分支控制实现高纹理与时间连贯

老旧视频模糊、噪点多、细节丢失，能否通过 AI 实现自然且真实的画质增强？传统视频修复方法往往在提升分辨率的同时，引入伪影、纹理失真或帧间抖动。而基于扩散模型的新一代生成技术，虽然具备强大的细节生成...

视频模型 # Vivid-VR # 视频修复

4个月前

03480

解决高分辨率生成痛点：CineScale 新范式优化扩散模型，支持 8K 图像与 4K 视频合成

视觉扩散模型虽已取得显著进展，但受限于“高分辨率训练数据稀缺”与“计算资源消耗大”，多数模型只能在低分辨率（如512×512）下训练，导致生成高保真图像、视频时容易出现“重复模式”“细节模糊”等问题...

视频模型 # CineScale # 高分辨率生成

4个月前

02680

南大、复旦联合英伟达提出LongVie：可控超长视频生成突破1分钟，解决时间不一致难题

可控超长视频生成（如生成1分钟以上、场景与动作精准可控的视频）是AI生成领域的核心挑战——现有方法在短视频生成中表现尚可，但扩展到长视频时，常出现时间不一致（帧间突变、物体位置漂移）与视觉质量下降（颜...

视频模型 # LongVie # 视频生成

4个月前

01460

多模态扩散架构MoDA：用于生成具有任意身份和语音音频的“会说话的头像”

阿里达摩院、浙江大学、湖畔实验室的研究人员推出多模态扩散架构MoDA，用于生成具有任意身份和语音音频的“会说话的头像”（talking head）。项目主页：https://lixinyyang.g...

视频模型 # MoDA # 多模态

4个月前

01100

加载更多

清华大学 & 字节跳动联合推出 HuMo：一个以人为中心的多模态视频生成框架

新型视频合成方法GenCompositor：实现轨迹可控的视频级前景融合

Pusa Wan2.2 V1.0：将开创性的 Pusa 范式扩展到先进的 Wan2.2-T2V-A14B 架构

腾讯发布混元世界模型 - Voyager：单图生成 3D 场景，实现长距离沉浸式探索

字节跳动发布OmniHuman-1.5：模拟人类双重认知，生成语义连贯的高逼真角色动画

腾讯开源混元视频音效生成模型HunyuanVideo-Foley：端到端TV2A模型，为创作者打造高保真音视频体验

阿里开源 Wan2.2-S2V-14B：输入一张图 + 一段音频，生成电影级数字人视频

字节跳动 Waver 项目组推出一体化视频生成模型Waver 1.0：同时支持文生图、图生视频及文生图生成

阿里淘天推出基于 DiT 的生成式视频修复方法Vivid-VR：概念蒸馏 + 双分支控制实现高纹理与时间连贯

解决高分辨率生成痛点：CineScale 新范式优化扩散模型，支持 8K 图像与 4K 视频合成

南大、复旦联合英伟达提出LongVie：可控超长视频生成突破1分钟，解决时间不一致难题

多模态扩散架构MoDA：用于生成具有任意身份和语音音频的“会说话的头像”

Fogsight (雾象)

朱雀大模型检测

秒哒

OiiOii AI

Tripo

ITELLOU

视频模型

网址

Fogsight (雾象)

朱雀大模型检测

秒哒

OiiOii AI

Tripo

ITELLOU