新阿里通义联合多所高校推出 Wan-Move:无需额外模块,实现高精度动作控制的视频生成框架在视频生成领域,动作控制是连接静态图像与动态叙事的关键环节。然而,现有方法普遍存在两个瓶颈:一是控制粒度粗糙(如仅用边界框控制整体移动),二是依赖额外模型(如光流估计器),导致推理复杂、误差累积、难以...百科# Wan-Move# 动作控制# 视频生成2天前0120
字节跳动 Waver 项目组推出一体化视频生成模型Waver 1.0:同时支持文生图、图生视频及文生图生成字节跳动 Waver 项目组近期正式推出 Waver 1.0 一体化视频生成模型,凭借多模态生成能力、高分辨率支持及卓越的运动建模效果,在视频生成领域实现重要突破,为工业级视频创作需求提供了全新解决方...视频模型# Waver 1.0# 字节跳动# 视频生成4个月前05650
南大、复旦联合英伟达提出LongVie:可控超长视频生成突破1分钟,解决时间不一致难题可控超长视频生成(如生成1分钟以上、场景与动作精准可控的视频)是AI生成领域的核心挑战——现有方法在短视频生成中表现尚可,但扩展到长视频时,常出现时间不一致(帧间突变、物体位置漂移)与视觉质量下降(颜...视频模型# LongVie# 视频生成4个月前01450
LightX2V:轻量级视频生成推理框架,统一支持多种模态输入随着多模态生成模型的发展,文本到视频(T2V)、图像到视频(I2V)等任务逐渐成为研究热点。然而,不同模型往往使用不同的推理流程,导致部署与调用复杂、资源占用高。 为此,研究人员推出了一个全新的轻量级...视频模型# LightX2V# 视频生成5个月前02340
UltraVideo 与 UltraWAN:首个支持原生 UHD 视频生成的开源数据集与模型随着高质量视频内容需求的快速增长,如电影级超高清(UHD)制作、沉浸式媒体和短视频创作,对文本到视频(T2V)模型的能力提出了更高要求。 然而,现有公开数据集在分辨率、图像质量及字幕细节方面存在明显不...视频模型# UltraVideo# UltraWAN# UltraWanComfy6个月前03530
Character.AI 发布全新多媒体功能:视频生成和社交动态功能AI 角色平台 Character.AI 宣布推出一系列重大更新,标志着其从传统的文本对话平台向多模态互动创作平台迈出关键一步。这些新功能包括: AvatarFX(视频生成模型) 场景(沉浸式叙事) ...早报# Character.AI# 视频生成6个月前01790
基于 ComfyUI 平台构建的协作式 AI 系统ComfyMind:打造稳定、灵活、可扩展的通用生成平台随着生成模型的飞速发展,“通用生成(General-Purpose Generation)”正成为 AI 领域的新焦点。它旨在通过一个统一系统,支持图像、视频、文本等多种模态任务的生成与编辑,为复杂创...新技术# ComfyMind# 图像生成# 视频生成7个月前02850
视频生成控制框架Uni3C:通过统一的3D增强方法精确控制视频生成中的相机和人物动作阿里巴巴达摩院、复旦大学和湖畔实验室的研究人员推出Uni3C框架,通过统一的3D增强方法精确控制视频生成中的相机和人物动作。 项目主页:https://ewrfcas.github.io/Uni3C ...新技术# Uni3C# 视频生成7个月前02500
基于解耦身份和运动的主体驱动视频生成的新方法首尔国立大学、 微软亚洲研究院和浦项科技大学的研究人员推出提出了一种**基于解耦身份和运动的主体驱动视频生成(Subject-driven Video Generation via Disentang...新技术# 视频生成7个月前02380
字节跳动推出统一的视频生成框架Phantom :通过跨模态对齐实现主体一致性的视频生成字节跳动的研究人员推出一个统一的视频生成框架Phantom ,通过跨模态对齐实现主体一致性的视频生成(Subject-to-Video, S2V),用于单主体和多主体参考,构建在现有的文本到视频和图像...新技术# Phantom# 字节跳动# 视频生成8个月前02750
新型框架Uni3C:通过3D增强技术实现对视频生成中相机和人体运动的精确控制阿里达摩院、复旦大学和湖畔实验室的研究人员推出新型框架Uni3C,旨在通过3D增强技术实现对视频生成中相机和人体运动的精确控制。Uni3C通过将相机控制和人体运动控制统一到一个框架中,解决了现有方法中...新技术# Uni3C# 人体运动# 视频生成8个月前04570
Any2Caption:通过将多样化的输入条件(如文本、图像、视频、人体姿态、相机运动等)转化为结构化的详细字幕,从而实现可控的视频生成快手和新加坡国立大学的研究人员推出新型框架 Any2Caption ,通过将多样化的输入条件(如文本、图像、视频、人体姿态、相机运动等)转化为结构化的详细字幕,从而实现可控的视频生成。这一框架的核心思...新技术# Any2Caption# 视频生成8个月前02730