DecartAI推出 Lucy Edit Dev ——全球首个开源、支持自由文本提示的指令引导视频编辑模型。它允许用户仅通过自然语言描述,即可完成复杂的视频修改任务,如更换服装、替换角色、插入物体或更改场景,同时高度保留原始视频的运动轨迹与构图一致性。
- 官网:https://platform.decart.ai
- 模型:https://huggingface.co/decart-ai/Lucy-Edit-Dev
- GitHub:https://github.com/DecartAI/lucy-edit-comfyui
这一进展标志着视频编辑从“手动操作”向“语义控制”的关键转变,也为研究者和开发者提供了一个可扩展的基础工具。

什么是 Lucy Edit?
Lucy Edit 是一个基于扩散架构的文本引导视频编辑模型,能够在无需微调、无需蒙版、无需参考图像的前提下,直接响应纯文本指令完成编辑。
示例:“把人物换成北极熊”
或 “将阳光海滩变为雪地苔原”
模型会自动理解语义,并在不破坏时间连贯性的前提下生成结果。其核心目标是实现高保真、时空一致、身份保留的精准编辑。

核心能力概览
| 功能 | 支持情况 | 典型用例 |
|---|---|---|
| 🧥 服装与配饰更换 | ✅ 高精度 | “将夹克换为红色皮质长款风衣” |
| 👤 角色/人物替换 | ✅ 效果稳定 | “替换成2D动漫角色,蓝发,战斗服” |
| 🪄 物体替换 | ✅ 可靠 | “苹果 → 发光水晶球” |
| 🌍 场景全局转换 | ⚠️ 有效但可能影响主体 | “白天街道 → 夜晚赛博朋克城市” |
| ➕ 添加新元素 | ⚠️ 多附着于主体 | “头上添加镶钻金冠” |
| 🎨 颜色调整 | ⚠️ 结果不稳定 | “鞋子改为亮黄色” |
✔ 主要优势
- 无需额外输入:不依赖分割掩码、关键点标注或参考图。
- 强身份保留:即使大幅修改外观,原始人物的身份特征(面部、体型、动作)仍被完整维持。
- 时间一致性好:81帧长序列生成下,无闪烁、漂移或跳变现象。
- 开放权重:模型已完全开源,支持本地部署与二次开发。
技术架构解析
Lucy Edit 基于 Wan2.2 5B 架构构建,继承其高压缩比时空变分自编码器(VAE)与扩散变换器(DiT)堆栈设计,参数量约为 50亿。该架构具备良好的兼容性,易于集成到现有生成流程中。
其工作流程基于 修正流(Rectified Flow) 框架,具体分为以下步骤:
- 视频编码
输入视频通过时空 VAE 编码为低维潜在表示 $ z_0 $。 - 通道拼接噪声
在去噪过程中,当前噪声状态 $ z_t $ 与原始输入潜在 $ z_0 $ 沿通道维度拼接,形成联合输入。 - 文本注入与交叉注意力
文本提示经 CLIP 编码后,通过交叉注意力机制指导每一步去噪方向。 - 速度场预测
DiT 网络预测从噪声到目标分布的“速度场”,逐步逼近编辑后的视频潜在空间。 - 解码输出
最终去噪结果由 VAE 解码回像素空间,得到编辑完成的视频。
这种设计使得模型既能遵循文本指令,又能锚定原始结构,从而实现精准且稳定的编辑效果。
如何写出有效的编辑提示?
实验表明,约 20–30 个词的详细描述最有利于模型准确理解意图。使用特定触发词可显著提升成功率。
推荐触发词:
| 操作类型 | 触发词 | 示例 |
|---|---|---|
| 修改 | 更改 / 更改为 | “将衬衫更改为宽袖和服” |
| 替换 | 替换为 | “人物替换为机械战士” |
| 添加 | 添加 | “添加一对发光翅膀” |
| 转换 | 转换为 / 变为 | “场景转换为水墨画风格” |
提示写作建议:
- 描述材质、颜色、光照等细节(如“哑光黑皮革”、“带金属光泽的银边”)
- 明确风格倾向(如“写实”、“卡通渲染”、“蒸汽朋克”)
- 包含上下文信息有助于定位(如“手持的雨伞”而非仅“雨伞”)
实际应用场景示例
1. 服装变更:影视后期快速试装
提示:“将模特身穿的白色T恤更改为黑色印花皮夹克,带有铆钉装饰。”
✅ 输出:服装准确替换,人物姿态、行走节奏完全保留。
2. 角色重塑:动画与游戏角色迁移
提示:“将人物替换为一只毛茸茸的北极熊,站立姿态,戴着飞行员护目镜。”
✅ 输出:形态合理变形,动作自然延续,符合物理规律。
3. 场景转换:广告创意快速迭代
提示:“将城市街头转换为未来主义霓虹都市,夜晚,有悬浮汽车。”
⚠️ 注意:此类全局编辑可能轻微影响主体表现,建议结合局部约束进一步优化。
4. 道具添加:虚拟内容植入
提示:“在演员右手添加一把燃烧火焰的剑。”
✅ 输出:火焰随挥动动态变化,光影与环境匹配良好。
性能表现与测试结果
在多个内部测试集中,Lucy Edit 表现出优于主流推理时编辑方法的稳定性与准确性:
| 维度 | 表现 |
|---|---|
| 身份保留 | 即使进行跨物种替换(如人→动物),原始面部轮廓与身体比例仍可识别 |
| 编辑精度 | 修改区域高度聚焦,背景、无关物体不受干扰 |
| 动态真实性 | 新增物体具有正确透视、阴影与运动交互(如衣物随风摆动) |
| 提示遵循度 | 对复杂描述响应准确,支持多条件组合指令 |
此外,81帧连续生成展现出优异的时间一致性,远优于短片段拼接方案。
局限与注意事项
尽管 Lucy Edit 在多种任务上表现强劲,但仍存在一些限制:
- 颜色更改结果不稳定:有时变化微弱,有时过度泛化;
- 新增物体常依附主体:难以独立放置于环境中;
- 极端视角或遮挡场景效果下降;
- 目前未优化推理速度,单段视频生成耗时较长。
团队正在持续训练与优化,后续版本预计将提升对细粒度属性的控制能力。















