用于音频驱动的多人对话视频生成的新框架 MultiTalk:根据多路音频输入和提示生成包含互动的视频,同时确保唇部动作与音频同步中山大学深圳校区、美团和香港科技大学的研究人员推出用于音频驱动的多人对话视频生成的新框架 MultiTalk,该框架能够根据多路音频输入和提示生成包含互动的视频,同时确保唇部动作与音频同步。 项目主页...视频模型# MultiTalk# 多人对话视频生成8个月前01820
Wan-Animate:阿里通义实验室推出的统一人物动画与替换框架阿里巴巴通义实验室 HumanAIGC 团队近日将推出 Wan-Animate —— 一个基于 Wan 系列模型构建的统一人物动画与角色替换框架。 项目主页:https://humanaigc.git...视频模型# Wan-Animate# 阿里通义实验室4个月前01810
Character.AI 推出 TalkingMachines:音频驱动的实时视频生成模型,打造“FaceTime 风格”AI 视频交互知名 AI 角色平台 Character.AI 发布了一项引人注目的研究成果——TalkingMachines,一个基于扩散模型的新型自回归视频生成系统。该系统仅需一张静态图像和一段语音输入,即可生成...视频模型# Character.AI# TalkingMachines7个月前01790
MiniMax-Remover:港中大等联合提出高效视频目标移除新方法在视频编辑中,目标移除是一项关键任务:从视频中删除指定对象(如行人、车辆、水印),同时保持背景的视觉一致性与时间连贯性。然而,现有方法常面临三大挑战: 生成伪影或“幻觉对象” 推理速度慢,依赖高步数采...视频模型# MiniMax-Remover6个月前01730
字节跳动提出OmniInsert:无需遮罩,任意对象都能自然插入视频在影视后期、广告制作乃至虚拟内容创作中,“将一个新角色或物体自然地加入已有视频”是一项高频需求。传统方法依赖精确的遮罩标注、关键帧追踪和复杂的合成流程,成本高、耗时长。 近期,基于扩散模型的技术为这一...视频模型# OmniInsert# 字节跳动# 视频编辑4个月前01540
南大、复旦联合英伟达提出LongVie:可控超长视频生成突破1分钟,解决时间不一致难题可控超长视频生成(如生成1分钟以上、场景与动作精准可控的视频)是AI生成领域的核心挑战——现有方法在短视频生成中表现尚可,但扩展到长视频时,常出现时间不一致(帧间突变、物体位置漂移)与视觉质量下降(颜...视频模型# LongVie# 视频生成5个月前01520
清华大学推出SketchColour:基于扩散变换器的高效 2D 动画自动上色方案清华大学的研究人员提出了一种全新的 2D 动画着色方法——SketchColour。该方法基于扩散变换器(DiT)架构,能够将黑白草图序列自动转换为连贯的彩色动画,显著提升动画制作效率。 项目主页:h...视频模型# 2D 动画自动上色# SketchColour7个月前01490
LTX Studio为其开源视频生成模型 LTX Video 推出三款全新 LoRA控制模型,为开源视频模型带来前所未有的控制力LTX Studio 为其开源视频生成模型 LTX Video 推出了三项全新的 LoRA 控制模块,让 AI 视频创作进入一个更具操控性与表现力的新阶段。 Depth Control: LTX-Vi...视频模型# LTX Studio# LTX Video7个月前01490
韩国科学技术院提出 ALG 方法:显著提升图生视频模型的动态性图像到视频(Image-to-Video, I2V)模型近年来取得了长足进展,能够根据一张静态图像和文本提示生成动态视频,实现更强的视觉控制。然而,研究发现,这类模型往往生成的视频过于静态,动态性远不...视频模型# ALG# 图生视频7个月前01480
通义万相 Wan2.5-Preview 正式发布:原生支持音画同步的多模态视觉生成引擎阿里通义实验室Wan项目组正式推出 Wan2.5-Preview——一个在架构层面实现革新、真正实现“音视频协同生成”的新一代视觉大模型。 它不是简单的功能叠加,而是通过原生多模态统一架构,将文本、图...视频模型# Wan2.5-Preview4个月前01280
多模态扩散架构MoDA:用于生成具有任意身份和语音音频的“会说话的头像”阿里达摩院、浙江大学、湖畔实验室的研究人员推出多模态扩散架构MoDA,用于生成具有任意身份和语音音频的“会说话的头像”(talking head)。 项目主页:https://lixinyyang.g...视频模型# MoDA# 多模态5个月前01120
Midjourney 正式发布 V1 视频模型:从文本到视频,AI创作迈入新阶段6月18日,Midjourney 宣布正式推出其首款视频生成模型 V1,标志着这家以图像生成闻名的 AI 公司,正式进军视频内容创作领域。 这一更新不仅打通了原有的图文生成生态,还实现了从文本直接生成...视频模型# Midjourney8个月前01120