LIFT:利用人类反馈进行文生视频模型对齐的新型微调方法文本到视频(T2V)生成模型近年来取得了显著进展,能够生成高质量的合成视频。然而,这些模型在将合成视频与人类偏好(例如,准确反映文本描述)对齐方面仍然存在不足。复旦大学、上海人工智能科学院和阿德莱德大...视频模型# LIFT# 微调# 文生视频模型2个月前01710
腾讯发布一种在 MM-DiT 架构下无需额外训练的多提示长视频生成方法DiTCtrl随着视频生成模型的发展,基于DiT架构如 Sora 和 MM-DiT 在单提示视频生成任务中取得了显著进展。然而,这些模型在处理多个顺序提示时面临诸多挑战,难以生成连贯且自然过渡的场景。具体来说: 严...视频模型# DiTCtrl2个月前01660
人体图像动画生成DisPose:从参考图像和驱动视频中生成视频,同时保持人物外观的一致性,并允许对动画进行精确控制可控的人体图像动画旨在使用驱动视频从参考图像生成视频。为了确保运动对齐,最近的工作尝试引入额外的密集条件(例如,深度图),但这些方法在参考角色的体型与驱动视频中的体型显著不同时,可能会损害生成视频的质...视频模型# DisPose# 人体图像动画生成2个月前01540
ltx-video-0.9-vae-finetune:基于 LTX Video 0.9 VAE 进行的微调VAE模型ltx-video-0.9-vae-finetune 是由开发者 spacepxl 基于 LTX Video 0.9 VAE 进行的微调VAE模型,旨在解决该模型中常见的棋盘伪影问题。通过专注于解码器...视频模型# ltx-video-0.9-vae-finetune# VAE模型2个月前01510
Rhymes AI开源图生视频模型Allegro-TI2V:根据用户提供的提示和图像生成视频Rhymes AI之前开源了视频生成模型Allegro,近期它们又推出了Allegro-TI2V。作为原始Allegro模型的迭代,Allegro-TI2V提供了前所未有的能力,将文本描述和图像转化为...视频模型# Allegro-TI2V# Rhymes AI2个月前01480
开源视频生成项目Open-Sora Plan:基于多种用户输入生成高分辨率、长时长的理想视频由北大-兔展AIGC联合实验室共同发起的Open-Sora Plan,目标是复现OpenAI的Sora模型。这是一个开源的大型视频生成模型项目,旨在基于多种用户输入生成高分辨率、长时长的理想视频。该项...视频模型# Open-Sora Plan2个月前01370
Adobe推出TransPixar:通过文本和图像生成透明背景的视频香港科技大学(广州)和 Adobe 研究的研究人员推出一种先进的文本到视频生成方法 TransPixar,特别专注于生成包含透明度通道(Alpha Channel)的RGBA视频,也就是能够通过文...视频模型# TransPixar2个月前01360
CogVideoXXX1.5-5B-I2V LoRA NSFW :基于 CogVideoX1.5-5B 的LoRA模型,专门针对NSFW内容进行了训练CogVideoXXX1.5-5B-I2V LoRA NSFW 是一个基于 CogVideoX1.5-5B 的LoRA模型,专门针对NSFW内容进行了训练。该模型在处理NSFW内容时表现出色,但也具备...视频模型# CogVideoX1.5-5B# LoRA模型2个月前01350
InfiniteZoom-Mochi:基于视频生成模型Mochi的LoRA,专注于无限缩放艺术风格InfiniteZoom-Mochi是一个视频生成模型Mochi的LoRA,专注于无限缩放艺术风格。无限缩放艺术风格是一种独特的视觉效果,通过不断放大图像的某个部分,创造出一种无限深入的感觉。应用此L...视频模型# InfiniteZoom-Mochi# 无限缩放2个月前01350
肖像图像动画Hallo系列再次更新!Hallo3框架引入Cogvidex模型,生成的肖像动画动作更自然、画面更逼真复旦大学、百度的研究人员对再次对Hallo 进行了更新,提出了 Hallo3框架,在通过预训练的基于变换器的视频生成模型(Cogvidex),解决现有肖像图像动画技术在处理非正面视角、渲染肖像周围动态...视频模型# Cogvidex模型# Hallo32个月前01330
字节跳动推出基于修正流Transformer 架构的新型图像和视频生成模型家族Goku香港大学和字节跳动的研究人员推出新型图像和视频生成模型家族Goku,它基于修正流Transformer 架构,实现了行业领先的图像和视频联合生成性能。Goku 的目标是通过高质量的视觉内容生成,推动媒...视频模型# Goku# 字节跳动# 视频生成2个月前01280
阿里通义实验室 Wan 团队推出一体化视频编辑框架 VACE阿里通义实验室 Wan 团队近日推出了一款专为视频创建和编辑设计的一体化视频编辑框架——VACE。该框架集成了多种视频任务,包括参考到视频生成(R2V)、视频到视频编辑(V2V)和蒙版视频到视频编辑...视频模型# VACE# Wan# 通义实验室4周前0900