让视频"无中生有"的AI魔术师！PISCO：基于稀疏控制的精确视频实例插入技术

12 0

想象一下，你拍了一段空无一人的街道视频，现在想把一只奔跑的猫放进画面里——不仅要让它看起来真实，还要让它和周围环境产生互动：地上要有影子，经过水坑要有倒影，被路灯照到要反光。更神奇的是，你只需要告诉AI"猫在第一帧站在这里，最后一帧跑到那里"，它就能自动算出中间所有帧的画面，让猫自然地跑完全程。

这就是PISCO想要实现的目标：精准视频实例插入——把任意物体插入现有视频，让它在指定时间、指定位置出现，并自动产生逼真的运动和场景互动。

解决了什么问题？

目前AI视频编辑领域面临一个尴尬局面：

传统视频修复工具需要你一帧一帧画出物体的轮廓，工作量巨大
参考图引导的编辑方法只能大概控制风格，无法精确指定"物体在第3秒出现在画面左边"
"先修图再生成视频"的流程会破坏原视频的背景，导致画面闪烁或变形
基于3D重建的方法计算量巨大，而且对复杂运动束手无策

PISCO要解决的核心问题是：如何让普通用户用最少的工作量（只提供几张关键帧），就能在视频中精准插入物体，并保证画面自然、物理合理、背景不变？

项目主页：https://xiangbogaobarry.github.io/PISCO
GitHub：https://github.com/taco-group/PISCO
模型：https://huggingface.co/xiangbog

研究背景

AI视频生成技术正在从"生成一段还行的视频"向"精准控制视频的每个细节"转变。对于电影制作、广告后期、短视频创作等专业领域，创作者需要的不是"差不多"的效果，而是"指哪打哪"的精确控制。

PISCO由德州农工大学、Visko平台、韩国科学技术院和斯坦福大学的研究团队联合开发，团队目前已释出模型，此模型是基于阿里开源的Wan系列模型。

主要功能

PISCO就像一个精通视频魔术的AI导演，核心能力可以概括为：

1. 精准时空控制——想放哪就放哪

单帧控制：只提供第一帧的物体图片和位置，AI自动推断后续运动
首尾帧控制：提供第一帧和最后一帧，AI自动补全中间过程
任意关键帧控制：在任意时间点插入控制帧，AI灵活调整运动轨迹

2. 自动运动传播——物体自己会动

插入的物体不会僵在原地，而是会根据场景自动产生合理的运动：

汽车会沿着道路行驶，转弯时车身会倾斜
人物会自然地走路、跑步，肢体动作协调
物体会受重力影响，抛物线轨迹符合物理规律

3. 物理场景适应——和周围环境互动

插入的物体不会"浮"在画面上，而是会和场景产生真实的互动：

光影效果：物体表面会反射环境光，产生符合光源方向的明暗变化
阴影投射：物体会在地面、墙面投下逼真的影子
水面倒影：经过水坑、湖面时会产生倒影和涟漪
遮挡关系：当物体走到树后、车后会自然被遮挡

4. 背景严格保留——只改想改的地方

原视频中的其他元素完全不受影响：

背景中的行人、车辆继续原来的运动
风吹树叶、水流波动等自然现象保持不变
camera移动、变焦等拍摄手法完整保留

5. 扩展应用——不止于插入

基于同样的技术，PISCO还能实现：

背景替换：保留前景人物，换一个新的背景场景
物体 repositioning：把画面中的物体移到另一个位置
速度调整：让物体运动变快或变慢
尺寸调整：放大或缩小画面中的物体
动态模拟：创造"如果物体走另一条路会怎样"的假设场景

主要特点

相比现有的视频编辑方案，PISCO有四大核心优势：

特点一： sparse control——少即是多

这是PISCO最大的创新。传统方法需要用户逐帧标注物体的位置和形状，一个10秒的视频就要画250帧。而PISCO只需要用户提供几张关键帧（甚至可以只有一张），就能完成整个视频的插入。

这就像动画制作中的"关键帧动画"——原画师只画几个关键姿势，中间帧由助手补全。PISCO把这个过程完全自动化了。

特点二：分布保持技术——画面不闪烁

现有方法在处理 sparse 控制时，经常会出现画面闪烁、颜色突变、物体时隐时现等问题。这是因为AI模型在处理"部分信息缺失"时会产生不稳定的输出。

PISCO发明了分布保持时序掩码技术（DPTM）——先用最近的关键帧填补缺失的画面，保持视频的整体连贯性，再在内部标记哪些是真数据、哪些是填补的，让AI既能参考填补信息，又不会把它当成真实指令。这彻底解决了闪烁问题。

特点三：几何感知——懂物理的AI

PISCO不仅懂图像，还懂三维空间关系。通过引入深度信息，它能判断：

物体应该在前景还是背景
什么时候应该被其他物体遮挡
光线从哪个方向来，阴影应该投在哪里

这让插入的物体不再是"贴图"，而是真正"融入"场景。

特点四：可扩展性——控制越多，效果越好

PISCO的设计非常灵活：用户提供的关键帧越多，效果就越好，但即使只有很少的控制，也能产出可用的结果。这种"渐进式改进"的特性，让不同需求的用户都能找到适合自己的工作流。

工作原理

用大白话讲，PISCO是怎么实现" sparse 控制"的？

可以把PISCO的工作流程想象成一个"接力赛"式的创作过程：

第一步：准备素材（数据预处理）

就像导演拍摄前需要准备场景和道具，PISCO需要两类素材：

干净背景视频：去掉目标物体的原始视频（可以用AI自动去除）
物体素材：目标物体的图片、轮廓、深度信息

深度信息就像是物体的"3D身份证"，告诉AI这个物体哪里凸、哪里凹，距离镜头有多远。

第二步：动态信息引导（VIG）——学会"举一反三"

这是PISCO的训练秘诀。研究人员在训练时，会随机"藏"掉大部分关键帧信息，只留一小部分让AI学习。

比如一个50帧的视频，训练时可能只给AI看第1帧、第25帧和第50帧，其他帧都屏蔽掉。AI必须学会根据这三帧，推断出中间47帧的画面。

这种训练方式让PISCO具备了强大的"脑补"能力——即使只给一帧，它也能合理推断后续运动；给的帧越多，推断就越准确。

第三步：分布保持时序掩码（DPTM）——解决闪烁难题

这是PISCO的核心技术创新。当用户只提供 sparse 关键帧时，存在一个技术难题：

视频AI模型通常先把视频压缩成"令牌"（一种数字摘要）再处理。如果直接把缺失的帧填成黑色，压缩后的令牌会"分布异常"，导致输出画面闪烁、变色。

PISCO的解决方案很聪明：

像素级填补：先用最近的关键帧复制填补缺失的帧，让整个视频看起来是完整的
令牌级掩码：在压缩后的令牌中，标记出哪些是真实数据、哪些是填补的
可用性通道：专门设计一个信号通道，告诉AI"这一帧是真的还是假的"

这样既保持了视频的整体连贯性（分布正常），又让AI知道该信什么、不该信什么。

第四步：几何感知条件——让物体"立"在场景中

为了让插入的物体和场景互动自然，PISCO引入了深度信息：

背景深度：告诉AI场景的远近关系，哪里是地面、哪里是远景
物体深度：告诉AI物体的立体形状

当AI知道"物体在3米外，地面在脚下，路灯在左上方"时，它就能自动计算出合理的阴影、倒影和遮挡关系。

第五步：外观增强训练——应对复杂情况

现实场景很复杂：物体可能被部分遮挡，光线可能不均匀。PISCO通过两种增强技术提升鲁棒性：

非模态补全：训练AI想象"被挡住的部分长什么样"，这样即使输入的物体图片不完整，也能生成完整的插入效果
重光照增强：训练AI适应不同的光照条件，让物体能自然融入各种光线环境

第六步：渐进式训练——从简单到复杂

PISCO的训练分为五个阶段，循序渐进：

适配器预热：先学会接收新的输入格式
适配器微调：优化条件注入方式
联合微调：让整个系统协同工作
增强训练：加入复杂情况的处理能力
分辨率扩展：从低分辨率逐步提升到高分辨率

这种渐进式训练保证了模型的稳定性和最终效果。

测试结果

PISCO在严格的基准测试中表现优异，以下是关键结果：

测试一：与现有方法的全面对比

研究人员在PISCO-Bench基准测试上对比了多种方案：

"修图+视频生成"流程：背景保真度很差，原视频的细节大量丢失
视频修复模型（CoCoCo、VideoPainter）：需要逐帧掩码，且生成的物体经常模糊或变形
参考引导的视频编辑（VACE、UniVideo）：无法控制精确位置，物体尺寸和轨迹经常出错

相比之下，PISCO在各项指标上都明显优于这些基线方法。

关键发现：sparse 控制的优势

当只提供第一帧控制时，PISCO已经能生成合理的结果；当提供首尾两帧时，效果大幅提升；当提供五帧控制时，质量达到最佳。

这验证了PISCO的核心设计理念：控制信号越多，效果越好，但即使很少的控制，也能产出可用的结果。

测试二：主观质量评估

在VBench感知质量评测中（评估视频的审美质量、运动平滑度、时序一致性等）：

PISCO在"主体一致性"（插入的物体是否保持同一外观）上得分超过91分，显著优于其他方法
在"图像质量"和"审美质量"上也位居前列
背景保持能力与专门的修复模型相当，同时运动质量更好

测试三：扩展应用验证

研究人员测试了PISCO的多种扩展功能：

背景替换：能保留前景物体的同时，生成全新的背景场景
物体重定位：能把物体移到新位置，并自动调整光影和遮挡
速度调整：能通过调整关键帧间隔，实现加速或减速效果
尺寸调整：能放大或缩小物体，并保持场景比例协调

这些扩展功能都无需重新训练，直接利用PISCO的核心能力即可实现。

关键结论

sparse 控制是可行的：不需要逐帧标注，几张关键帧就能实现高质量的视频实例插入
分布保持技术有效：DPTM技术彻底解决了 sparse 控制导致的闪烁和变色问题
几何感知很重要：引入深度信息显著提升了物理合理性和场景融合度
可扩展性强：控制信号越多，效果越好，用户可以根据需求灵活选择

未来展望

PISCO代表了AI视频编辑向"精准控制"迈进的重要一步。未来的发展方向可能包括：

实时化：从离线处理发展到实时编辑，让用户即时看到效果
交互式编辑：支持用户中途调整，AI实时响应修改
多物体协同：同时插入多个物体，并让它们之间产生合理的互动
物理仿真增强：不仅能生成逼真画面，还能预测物体的物理行为（如碰撞、破碎）

当这些技术成熟，"用说话的方式做视频特效"将成为现实——每个人都能成为自己生活的导演。

视频模型 # PISCO # 视频编辑

文章版权归作者所有，未经允许请勿转载。

视频人脸超分辨率的新型框架KEEP：解决视频中人脸图像的超分辨率问题，同时保持时间一致性

视频模型 # KEEP # 视频人脸超分辨率

10个月前

01890

腾讯混元推出HunyuanVideo-Avatar：音频驱动、情感可控、支持多角色的虚拟人视频生成模型

视频模型 # HunyuanVideo-Avatar # 腾讯混元 # 视频生成模型

10个月前

04160

智谱AI发布 Kaleido：通过多参考图像生成主体一致视频的 S2V 框架

视频模型 # Kaleido # 智谱AI

3个月前

0580

线性注意力 + 恒定内存 KV 缓存！SANA-Video：高效生成分钟级高清视频的新一代文生视频模型

视频模型 # SANA-Video # 文生视频模型

5个月前

06500

暂无评论

暂无评论...

让视频"无中生有"的AI魔术师！PISCO：基于稀疏控制的精确视频实例插入技术

主要功能

主要特点

工作原理

测试结果

复杂运动、多模态参考、双声道音频！字节跳动正式发布Seedance 2.0：统一多模态架构，支持导演级编辑的工业级音视频生成

Capybara：统一视觉创作模型，一个模型搞定文生图、视频生成与全能编辑

相关文章

视频人脸超分辨率的新型框架KEEP：解决视频中人脸图像的超分辨率问题，同时保持时间一致性

腾讯混元推出HunyuanVideo-Avatar：音频驱动、情感可控、支持多角色的虚拟人视频生成模型

智谱AI发布 Kaleido：通过多参考图像生成主体一致视频的 S2V 框架

线性注意力 + 恒定内存 KV 缓存！SANA-Video：高效生成分钟级高清视频的新一代文生视频模型

暂无评论

文章

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

Jina AI推出文本嵌入模型Jina Embeddings v4：多模态多语言检索的通用嵌入模型

新型图像到3D框架Unique3D：从单视图图像高效生成高质量的3D网格模型

Anthropic 为“退役”的 Claude 3 Opus 开设 Substack 专栏：全球首个 AI 博客实验，每周发布“退休思考”

S.H.I.T

新QClaw

CoPaw

新WorkBuddy

新AutoClaw

新ArkClaw

让视频"无中生有"的AI魔术师！PISCO：基于稀疏控制的精确视频实例插入技术

主要功能

主要特点

工作原理

测试结果

复杂运动、多模态参考、双声道音频！字节跳动正式发布Seedance 2.0：统一多模态架构， 支持导演级编辑的工业级音视频生成

Capybara：统一视觉创作模型，一个模型搞定文生图、视频生成与全能编辑

相关文章

文章

标签云

网址

S.H.I.T

新QClaw

CoPaw

新WorkBuddy

新AutoClaw

新ArkClaw

复杂运动、多模态参考、双声道音频！字节跳动正式发布Seedance 2.0：统一多模态架构，支持导演级编辑的工业级音视频生成