腾讯发布一种在 MM-DiT 架构下无需额外训练的多提示长视频生成方法DiTCtrl随着视频生成模型的发展,基于DiT架构如 Sora 和 MM-DiT 在单提示视频生成任务中取得了显著进展。然而,这些模型在处理多个顺序提示时面临诸多挑战,难以生成连贯且自然过渡的场景。具体来说: 严...视频模型# DiTCtrl2个月前01650
ltx-video-0.9-vae-finetune:基于 LTX Video 0.9 VAE 进行的微调VAE模型ltx-video-0.9-vae-finetune 是由开发者 spacepxl 基于 LTX Video 0.9 VAE 进行的微调VAE模型,旨在解决该模型中常见的棋盘伪影问题。通过专注于解码器...视频模型# ltx-video-0.9-vae-finetune# VAE模型2个月前01510
LTX-Video推出0.9.1版本,引入全新VAE解码器,原生支持STG/PAG之前介绍过的《Lightricks推出开源视频生成模型LTX Video》,今天LTX-Video迎来了它的首次重要更新——0.9.1版本。作为生成式AI视频模型的最新迭代,LTX-Video 0.9...视频模型# LTX-Video 0.9.12个月前01870
新型自回归视频生成模型NOVA:能够在无需向量量化的情况下,高效地生成视频北京邮电大学、中国科学院计算技术研究所、大连理工大学和北京智源研究院的研究人员提出了一种名为 NOVA 的新型自回归视频生成模型。该模型能够在无需向量量化的情况下,通过重新表述视频生成问题,实现了在时...视频模型# NOVA# 自回归视频生成模型2个月前01820
加速DiT架构视频生成模型的开源技术栈FastVideo:已推出FastHunyuan和FastMochi 两款模型,生成速度提升8倍加州大学圣地亚哥分校 Hao AI 实验室推出的一个开源技术栈FastVideo ,旨在显著加速最先进的(SoTA)开源DiT架构视频生成模型的推理速度。它通过引入 一致性蒸馏(Consistency...视频模型# FastHunyuan# FastMochi# FastVideo2个月前02500
图森未来发布图生视频大模型“Ruyi”,能够在消费级显卡上运行图森未来今日正式发布了其首款“图生视频”大模型——Ruyi,目前Ruyi-Mini-7B版本已经正式释出。这款模型专为生成高质量的影视级视频而设计,能够在消费级显卡(如 RTX 3090 或 RTX ...插件视频模型# Ruyi# 图森未来# 图生视频大模型2个月前01880
人体图像动画生成DisPose:从参考图像和驱动视频中生成视频,同时保持人物外观的一致性,并允许对动画进行精确控制可控的人体图像动画旨在使用驱动视频从参考图像生成视频。为了确保运动对齐,最近的工作尝试引入额外的密集条件(例如,深度图),但这些方法在参考角色的体型与驱动视频中的体型显著不同时,可能会损害生成视频的质...视频模型# DisPose# 人体图像动画生成2个月前01540
LIFT:利用人类反馈进行文生视频模型对齐的新型微调方法文本到视频(T2V)生成模型近年来取得了显著进展,能够生成高质量的合成视频。然而,这些模型在将合成视频与人类偏好(例如,准确反映文本描述)对齐方面仍然存在不足。复旦大学、上海人工智能科学院和阿德莱德大...视频模型# LIFT# 微调# 文生视频模型2个月前01710
CogVideoXXX1.5-5B-I2V LoRA NSFW :基于 CogVideoX1.5-5B 的LoRA模型,专门针对NSFW内容进行了训练CogVideoXXX1.5-5B-I2V LoRA NSFW 是一个基于 CogVideoX1.5-5B 的LoRA模型,专门针对NSFW内容进行了训练。该模型在处理NSFW内容时表现出色,但也具备...视频模型# CogVideoX1.5-5B# LoRA模型2个月前01350
开源视频生成项目Open-Sora Plan:基于多种用户输入生成高分辨率、长时长的理想视频由北大-兔展AIGC联合实验室共同发起的Open-Sora Plan,目标是复现OpenAI的Sora模型。这是一个开源的大型视频生成模型项目,旨在基于多种用户输入生成高分辨率、长时长的理想视频。该项...视频模型# Open-Sora Plan2个月前01370
腾讯发布开源视频生成模型—混元文生视频模型HunyuanVideo腾讯在今天正式开源了其最新的视频生成模型—混元文生视频模型HunyuanVideo。这款模型不仅在视频生成能力上与业界领先的闭源模型相匹敌,甚至在某些方面表现更为出色。作为一款综合性的框架,Hunyu...视频模型# HunyuanVideo# 混元文生视频模型# 腾讯2个月前01820
InfiniteZoom-Mochi:基于视频生成模型Mochi的LoRA,专注于无限缩放艺术风格InfiniteZoom-Mochi是一个视频生成模型Mochi的LoRA,专注于无限缩放艺术风格。无限缩放艺术风格是一种独特的视觉效果,通过不断放大图像的某个部分,创造出一种无限深入的感觉。应用此L...视频模型# InfiniteZoom-Mochi# 无限缩放2个月前01350