视频模型

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

阿里巴巴通义实验室推出新型单次拍摄可动画化的高斯头部模型 LAM：能够从单张图像中生成可动画化且可渲染的高斯头像

阿里巴巴通义实验室推出新型单次拍摄可动画化的高斯头部模型 LAM（Large Avatar Model），能够从单张图像中生成可动画化且可渲染的高斯头像。与以往需要大量视频序列训练或依赖辅助神经网络进...

8个月前

03830

昆仑万维开源图生视频模型SkyReels-A2，基于阿里Wan2.1微调而成

昆仑万维在上个月推出面向 AI 短剧创作的视频生成模型 SkyReels-V1后，又在近期开源SkyReels-A2，可以将任意视觉元素（如人物、物体、背景等）根据文本提示组装成合成视频，同时严格保持...

视频模型 # SkyReels-A2 # Wan2.1 # 昆仑万维

9个月前

03610

阿里旗下PAI项目组开源了视频生成模型Wan 2.1 的控制模型Wan2.1-Fun系列，支持Canny、Depth、Pose、MLSD等多种模式

阿里旗下PAI项目组开源了视频生成模型Wan 2.1 的控制模型，支持不同的控制条件，如Canny、Depth、Pose、MLSD等，同时支持使用轨迹控制。模型地址：https://huggingf...

视频模型 # Wan 2.1 # Wan2.1-Fun-1.3B-Control # Wan2.1-Fun-1.3B-InP

9个月前

03110

AccVideo：通过知识蒸馏技术，将HunyuanVideo模型生成速度提高了 8.5 倍，同时保持生成质量

视频扩散模型是一种强大的生成模型，能够生成高质量的视频内容。然而，传统的视频扩散模型在生成视频时需要大量的迭代去噪步骤，这使得生成过程非常缓慢且计算成本高昂。例如，HunyuanVideo 模型在单个...

视频模型 # AccVideo # HunyuanVideo # 知识蒸馏

9个月前

04040

通用视频生成控制模型PP-VCtrl：引入辅助条件编码器，能够灵活对接各类控制模块

在数字创意蓬勃发展的当下，视频生成技术已成为内容创作的核心驱动力之一。然而，尽管文本到视频的扩散模型取得了显著进展，但在精确控制生成内容的时空特征方面仍存在诸多挑战。广告创意、影视后期制作、直播带货...

视频模型 # PP-VCtrl # 视频生成控制模型

9个月前

04360

用于生成自然动态“说话肖像”视频的新型框架KDTalker

利物浦大学、蚂蚁集团、西交利物浦大学、昆山杜克大学和理光软件研究中心推出新型框架 KDTalker，用于从单张图像和音频生成自然且动态的“说话肖像”（talking portrait）视频。该框架结合...

视频模型

9个月前

02690

用于从单张图像生成灵活视角 3D 场景的框架FlexWorld：从单张图像生成具有灵活视角（如 360° 旋转和缩放）的高质量 3D 场景

中国人民大学、北京市大数据重点实验室、清华大学、北京师范大学和字节跳动的研究人员推出一种用于从单张图像生成灵活视角 3D 场景的框架FlexWorld，从单张图像生成具有灵活视角（如 360° 旋转和...

视频模型 # 3D 场景 # FlexWorld

9个月前

03670

阶跃星辰开源图生视频模型 Step-Video-TI2V：30B参数，运动幅度和镜头运动可控

在2025年2月，阶跃星辰开源了两款Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。现在，阶跃星辰进一步扩展其开源贡献，推出了基于30B参数Step...

视频模型 # Step-Video-TI2V # 图生视频模型 # 阶跃星辰

9个月前

02000

英伟达推出世界生成与自适应多模态控制Cosmos-Transfer1

英伟达推出了一个名为 Cosmos World Foundation Model Platform 的平台，旨在为 Physical AI（物理人工智能）提供定制化的世界模型（World Founda...

视频模型 # Cosmos-Transfer1 # 英伟达

9个月前

02960

阿里通义实验室推出新型模型LHM：能够在几秒钟内从单张图像重建出可动画化的人体三维模型

阿里通义实验室推出新型模型LHM，能够在几秒钟内从单张图像重建出可动画化的人体三维模型。该模型利用多模态变换器架构，有效融合了人体位置特征和图像特征，通过注意力机制实现了几何和视觉领域的联合推理。项...

视频模型 # LHM # 阿里通义实验室

9个月前

04470

潞晨科技开源视频生成模型 Open-Sora 2.0，号称性能接近 OpenAI Sora

潞晨科技宣布推出开源视频生成模型 Open-Sora 2.0，并全面开源模型权重、推理代码及分布式训练全流程。这款模型仅用 20 万美元（相当于 224 张 GPU 的计算成本）便成功训练出商业级 1...

视频模型 # Open-Sora 2.0 # OpenAI # Sora

9个月前

02890

阿里通义实验室 Wan 团队推出一体化视频编辑框架 VACE

阿里通义实验室 Wan 团队近日推出了一款专为视频创建和编辑设计的一体化视频编辑框架——VACE。该框架集成了多种视频任务，包括参考到视频生成（R2V）、视频到视频编辑（V2V）和蒙版视频到视频编辑...

视频模型 # VACE # Wan # 通义实验室

9个月前

03930

加载更多

阿里巴巴通义实验室推出新型单次拍摄可动画化的高斯头部模型 LAM：能够从单张图像中生成可动画化且可渲染的高斯头像

昆仑万维开源图生视频模型SkyReels-A2，基于阿里Wan2.1微调而成

阿里旗下PAI项目组开源了视频生成模型Wan 2.1 的控制模型Wan2.1-Fun系列，支持Canny、Depth、Pose、MLSD等多种模式

AccVideo：通过知识蒸馏技术，将HunyuanVideo模型生成速度提高了 8.5 倍，同时保持生成质量

通用视频生成控制模型PP-VCtrl：引入辅助条件编码器，能够灵活对接各类控制模块

用于生成自然动态“说话肖像”视频的新型框架KDTalker

用于从单张图像生成灵活视角 3D 场景的框架FlexWorld：从单张图像生成具有灵活视角（如 360° 旋转和缩放）的高质量 3D 场景

阶跃星辰开源图生视频模型 Step-Video-TI2V：30B参数，运动幅度和镜头运动可控

英伟达推出世界生成与自适应多模态控制Cosmos-Transfer1

阿里通义实验室推出新型模型LHM：能够在几秒钟内从单张图像重建出可动画化的人体三维模型

潞晨科技开源视频生成模型 Open-Sora 2.0，号称性能接近 OpenAI Sora

阿里通义实验室 Wan 团队推出一体化视频编辑框架 VACE

Fogsight (雾象)

朱雀大模型检测

ITELLOU

秒哒

Tripo

OiiOii AI

视频模型

网址

Fogsight (雾象)

朱雀大模型检测

ITELLOU

秒哒

Tripo

OiiOii AI