视频生成

排序

发布更新浏览点赞

UltraVideo 与 UltraWAN：首个支持原生 UHD 视频生成的开源数据集与模型

随着高质量视频内容需求的快速增长，如电影级超高清（UHD）制作、沉浸式媒体和短视频创作，对文本到视频（T2V）模型的能力提出了更高要求。然而，现有公开数据集在分辨率、图像质量及字幕细节方面存在明显不...

9个月前

04410

新型视频分词器LARP：专为自回归（AR）生成模型设计，用于提高视频生成任务的性能

马里兰大学学院公园分校的研究人员提出了一种名为LARP（Latent Aggregation and Refinement for Perception）的新型视频分词器，它专为自回归（AR）生成模型...

新技术 # LARP # 视频分词器 # 视频生成

1年前

04190

视频生成控制框架Uni3C：通过统一的3D增强方法精确控制视频生成中的相机和人物动作

阿里巴巴达摩院、复旦大学和湖畔实验室的研究人员推出Uni3C框架，通过统一的3D增强方法精确控制视频生成中的相机和人物动作。项目主页：https://ewrfcas.github.io/Uni3C ...

新技术 # Uni3C # 视频生成

10个月前

04150

新型图生视频模型VidCRAFT3：能够同时控制相机运动、物体运动和光照方向

复旦大学、浙江大学、华为诺亚方舟实验室、西湖大学的研究人员推出新型高质量图像到视频生成模型VidCRAFT3 ，能够同时控制相机运动、物体运动和光照方向。它通过解耦这些视觉元素的控制，实现了对生成视频...

新技术 # VidCRAFT3 # 视频生成

1年前

04140

Meta推出创新方案AdaCache（自适应缓存）：不进行额外训练的情况下加速视频生成

视频生成是AI研究的一个热点领域，特别是在生成时间上一致、高保真的视频方面。这一领域涉及创建在帧之间保持视觉连贯性并在时间上保留细节的视频序列。近年来，机器学习模型，尤其是扩散变换器（DiTs），已成...

新技术 # AdaCache # Meta AI # 自适应缓存

1年前

03960

新型视频生成框架GS-DiT：通过伪4D高斯场实现对视频内容的精确4D控制

香港中文大学多媒体实验室、博智感知交互研究中心和Avolution AI的研究人员推出新型视频生成框架GS-DiT，旨在通过伪4D高斯场实现对视频内容的精确4D控制。GS-DiT通过构建伪4D高斯场并...

新技术 # GS-DiT # 视频生成

1年前

03690

统一的控制视频生成方法AnimateAnything：实现对视频内容的精确和一致性的操控，包括相机轨迹、文本提示和用户运动注释等多种条件

视频生成是一个复杂而多样的任务，涉及多个条件的控制，如摄像机轨迹、文本提示和用户运动注释。现有的方法通常只能在特定条件下生成视频，缺乏灵活性和一致性。为了解决这些问题，浙江大学 CAD&CG ...

新技术 # AnimateAnything # 视频生成

1年前

03520

LTX-Video推出0.9.5版本：原生 ComfyUI 支持，关键帧与视频扩展增强可控性

时隔近3个月，LTX-Video再次引来更新，随着2025年3月5日发布的v0.9.5版本，LTX-Video带来了多项改进和新特性，进一步增强了用户体验。通过质量提升、功能增强和用户体验改进，LTX...

视频模型 # LTX # LTX Video # 视频生成

1年前

03480

新型故事视频生成框架DreamRunner：根据文本脚本生成长篇、多动作、多场景的视频，适用于CogVideoX模型

故事讲述视频生成（SVG）是一项旨在从文本脚本创建长时间、多动作、多场景视频的任务。这种技术在媒体和娱乐领域的内容创作中具有巨大潜力，但同时也面临着诸多挑战，包括但不限于：物体需要展示一系列精细、复...

新技术 # DreamRunner # 视频生成

1年前

03440

基于 ComfyUI 平台构建的协作式 AI 系统ComfyMind：打造稳定、灵活、可扩展的通用生成平台

随着生成模型的飞速发展，“通用生成（General-Purpose Generation）”正成为 AI 领域的新焦点。它旨在通过一个统一系统，支持图像、视频、文本等多种模态任务的生成与编辑，为复杂创...

新技术 # ComfyMind # 图像生成 # 视频生成

10个月前

03410

新型3D感知视频扩散方法DaS：实现对视频生成过程的多样化和精确控制

香港科技大学、浙江大学、香港大学、南洋理工大学、武汉大学和德克萨斯农工大学的研究人员推出新型3D感知视频扩散方法“Diffusion as Shader（DaS）”，旨在实现对视频生成过程的多样化和精...

新技术 # DaS # 视频生成

1年前

03160

Free^2Guide：无梯度框架提升文本到视频（T2V）生成中的文本对齐

扩散模型在文本到图像（T2I）和文本到视频（T2V）合成等生成任务中取得了显著成果。然而，在T2V生成中，实现准确的文本对齐仍然是一个具有挑战性的问题，尤其是在处理帧间复杂的时序依赖性时。现有的基于强...

新技术 # Free^2Guide # 视频生成

1年前

03150

加载更多