字节跳动 Waver 项目组推出一体化视频生成模型Waver 1.0:同时支持文生图、图生视频及文生图生成字节跳动 Waver 项目组近期正式推出 Waver 1.0 一体化视频生成模型,凭借多模态生成能力、高分辨率支持及卓越的运动建模效果,在视频生成领域实现重要突破,为工业级视频创作需求提供了全新解决方...视频模型# Waver 1.0# 字节跳动# 视频生成3个月前05610
时间延时视频生成模型MagicTime:学习现实世界中的物理知识,并能够生成展示这些知识的时间延时视频来自北京大学深圳研究生院、罗彻斯特大学、新加坡国立大学、广东工业大学和加州大学圣克鲁斯分校的研究人员推出新型时间延时视频生成模型MagicTime,这个模型的目标是学习现实世界中的物理知识,并能够生成...视频模型# MagicTime# 时间延时视频生成模型10个月前05510
线性注意力 + 恒定内存 KV 缓存!SANA-Video:高效生成分钟级高清视频的新一代文生视频模型在文本到视频(T2V)生成领域,高分辨率、长时长与低延迟三者往往难以兼得。现有大模型虽能生成高质量视频,但动辄数千秒的推理时间与高昂的训练成本严重限制了其落地应用。 为此,由英伟达、香港大学、麻省理工...视频模型# SANA-Video# 文生视频模型2个月前05440
智谱 AI推出CogVideoX 系列图生视频模型 CogVideoX-5B-I2VCogVideoX是智谱 AI推出的与 清影 同源的开源版本视频生成模型,之前已经释出了CogVideoX-2B和CogVideoX-5B模型,智谱 AI又在昨天释出了 CogVideoX 系列图生视...视频模型# CogVideoX-5B-I2V# 智谱 AI10个月前05030
Genmo推出开源视频生成模型天花板Mochi 1,型需 4 块英伟达H100 显卡才可运行Genmo是一家专注于视频生成的AI初创公司,之前都是默默无闻,其官方视频生成产品也是半死不活,但他们在昨天突然放大招开源了一款视频生成模型Mochi 1,号称其性能可与领先的闭源/专有竞争对手(如R...视频模型# Genmo# Mochi 1# 视频生成模型10个月前04840
新型视频生成模型Pyramidal Flow:提高视频生成的效率,同时保持生成视频的高质量北京大学、快手科技和北京邮电大学的研究人员推出新型视频生成模型Pyramidal Flow,这个模型的目的是提高视频生成的效率,同时保持生成视频的高质量。可以想象一下,你想制作一个视频,里面有一只小猫...视频模型# Pyramidal Flow# 视频生成模型10个月前04780
腾讯推出专为生成开放世界游戏量身定制的DiT模型GameGen-O:通过模拟各种游戏引擎特性,如创新角色、动态环境、复杂动作和多样事件,促进了高质量、开放领域的生成香港科技大学、中国科学技术大学和腾讯光子工作室的研究人员推出一个专为生成开放世界游戏量身定制的DiT模型GameGen-O,该模型通过模拟各种游戏引擎特性,如创新角色、动态环境、复杂动作和多样事件,促...视频模型# DiT模型# GameGen-O# 开放世界游戏10个月前04490
阿里通义实验室推出新型模型LHM:能够在几秒钟内从单张图像重建出可动画化的人体三维模型阿里通义实验室推出新型模型LHM,能够在几秒钟内从单张图像重建出可动画化的人体三维模型。该模型利用多模态变换器架构,有效融合了人体位置特征和图像特征,通过注意力机制实现了几何和视觉领域的联合推理。 项...视频模型# LHM# 阿里通义实验室9个月前04430
阿里开源 Wan2.2-S2V-14B:输入一张图 + 一段音频,生成电影级数字人视频阿里Wan团队正式开源音频驱动视频生成模型Wan2.2-S2V-14B。这款模型打破了传统视频生成对复杂输入的依赖——用户仅需提供一张静态图像与一条音频,即可生成面部表情自然、口型精准同步、肢体动作流...视频模型# Wan2.2-S2V-14B# 数字人# 阿里3个月前04370
PUSA V1.0:以500 美元成本超越 WAN-I2V-14B 的高效视频生成模型由香港城市大学、华为研究院、腾讯、岭南大学等机构联合提出,PUSA V1.0 是一个基于矢量化时间步适应(VTA) 的新型视频扩散模型,实现了极低资源消耗下的高质量视频生成能力。 项目主页:https...视频模型# PUSA V1.0# WAN-I2V-14B# 视频生成模型5个月前04370
半身人体动画生成框架 EchoMimicV2:利用参考图像、音频剪辑和一系列手部姿势来生成高质量的动画视频随着计算机图形学和人工智能的发展,生成高质量的人类动画变得越来越重要。特别是,当涉及到创建生动、自然的动画时,音频、姿势或运动图等条件的引入大大提升了动画的真实性和表现力。然而,这些增强的方法也带来了...视频模型# EchoMimicV2# 动画生成10个月前04360
Rhymes AI开源视频生成模型Allegro:从简单的文本提示生成高质量的 6 秒视频Rhymes AI在推出多模态原生模型Aria后,又在昨天开源了视频生成模型Allegro,Allegro 使用户能够从简单的文本提示生成高质量的 6 秒视频,帧率为 15 帧每秒,分辨率为 720P...视频模型# Allegro# Rhymes AI# 视频生成模型10个月前04350