DecartAI推出 Lucy Edit Dev:全球首个开源、支持自由文本提示的指令引导视频编辑模型

视频模型3个月前发布 小马良
183 0

DecartAI推出 Lucy Edit Dev ——全球首个开源、支持自由文本提示的指令引导视频编辑模型。它允许用户仅通过自然语言描述,即可完成复杂的视频修改任务,如更换服装、替换角色、插入物体或更改场景,同时高度保留原始视频的运动轨迹与构图一致性。

这一进展标志着视频编辑从“手动操作”向“语义控制”的关键转变,也为研究者和开发者提供了一个可扩展的基础工具。

DecartAI推出 Lucy Edit Dev:全球首个开源、支持自由文本提示的指令引导视频编辑模型

什么是 Lucy Edit?

Lucy Edit 是一个基于扩散架构的文本引导视频编辑模型,能够在无需微调、无需蒙版、无需参考图像的前提下,直接响应纯文本指令完成编辑。

示例:“把人物换成北极熊”
或 “将阳光海滩变为雪地苔原”

模型会自动理解语义,并在不破坏时间连贯性的前提下生成结果。其核心目标是实现高保真、时空一致、身份保留的精准编辑。

DecartAI推出 Lucy Edit Dev:全球首个开源、支持自由文本提示的指令引导视频编辑模型

核心能力概览

功能支持情况典型用例
🧥 服装与配饰更换✅ 高精度“将夹克换为红色皮质长款风衣”
👤 角色/人物替换✅ 效果稳定“替换成2D动漫角色,蓝发,战斗服”
🪄 物体替换✅ 可靠“苹果 → 发光水晶球”
🌍 场景全局转换⚠️ 有效但可能影响主体“白天街道 → 夜晚赛博朋克城市”
➕ 添加新元素⚠️ 多附着于主体“头上添加镶钻金冠”
🎨 颜色调整⚠️ 结果不稳定“鞋子改为亮黄色”

✔ 主要优势

  • 无需额外输入:不依赖分割掩码、关键点标注或参考图。
  • 强身份保留:即使大幅修改外观,原始人物的身份特征(面部、体型、动作)仍被完整维持。
  • 时间一致性好:81帧长序列生成下,无闪烁、漂移或跳变现象。
  • 开放权重:模型已完全开源,支持本地部署与二次开发。

技术架构解析

Lucy Edit 基于 Wan2.2 5B 架构构建,继承其高压缩比时空变分自编码器(VAE)与扩散变换器(DiT)堆栈设计,参数量约为 50亿。该架构具备良好的兼容性,易于集成到现有生成流程中。

其工作流程基于 修正流(Rectified Flow) 框架,具体分为以下步骤:

  1. 视频编码
    输入视频通过时空 VAE 编码为低维潜在表示 $ z_0 $。
  2. 通道拼接噪声
    在去噪过程中,当前噪声状态 $ z_t $ 与原始输入潜在 $ z_0 $ 沿通道维度拼接,形成联合输入。
  3. 文本注入与交叉注意力
    文本提示经 CLIP 编码后,通过交叉注意力机制指导每一步去噪方向。
  4. 速度场预测
    DiT 网络预测从噪声到目标分布的“速度场”,逐步逼近编辑后的视频潜在空间。
  5. 解码输出
    最终去噪结果由 VAE 解码回像素空间,得到编辑完成的视频。

这种设计使得模型既能遵循文本指令,又能锚定原始结构,从而实现精准且稳定的编辑效果。

如何写出有效的编辑提示?

实验表明,约 20–30 个词的详细描述最有利于模型准确理解意图。使用特定触发词可显著提升成功率。

推荐触发词:

操作类型触发词示例
修改更改 / 更改为“将衬衫更改为宽袖和服”
替换替换为“人物替换为机械战士”
添加添加“添加一对发光翅膀”
转换转换为 / 变为“场景转换为水墨画风格”

提示写作建议:

  • 描述材质、颜色、光照等细节(如“哑光黑皮革”、“带金属光泽的银边”)
  • 明确风格倾向(如“写实”、“卡通渲染”、“蒸汽朋克”)
  • 包含上下文信息有助于定位(如“手持的雨伞”而非仅“雨伞”)

实际应用场景示例

1. 服装变更:影视后期快速试装

提示:“将模特身穿的白色T恤更改为黑色印花皮夹克,带有铆钉装饰。”

✅ 输出:服装准确替换,人物姿态、行走节奏完全保留。

2. 角色重塑:动画与游戏角色迁移

提示:“将人物替换为一只毛茸茸的北极熊,站立姿态,戴着飞行员护目镜。”

✅ 输出:形态合理变形,动作自然延续,符合物理规律。

3. 场景转换:广告创意快速迭代

提示:“将城市街头转换为未来主义霓虹都市,夜晚,有悬浮汽车。”

⚠️ 注意:此类全局编辑可能轻微影响主体表现,建议结合局部约束进一步优化。

4. 道具添加:虚拟内容植入

提示:“在演员右手添加一把燃烧火焰的剑。”

✅ 输出:火焰随挥动动态变化,光影与环境匹配良好。

性能表现与测试结果

在多个内部测试集中,Lucy Edit 表现出优于主流推理时编辑方法的稳定性与准确性:

维度表现
身份保留即使进行跨物种替换(如人→动物),原始面部轮廓与身体比例仍可识别
编辑精度修改区域高度聚焦,背景、无关物体不受干扰
动态真实性新增物体具有正确透视、阴影与运动交互(如衣物随风摆动)
提示遵循度对复杂描述响应准确,支持多条件组合指令

此外,81帧连续生成展现出优异的时间一致性,远优于短片段拼接方案。

局限与注意事项

尽管 Lucy Edit 在多种任务上表现强劲,但仍存在一些限制:

  • 颜色更改结果不稳定:有时变化微弱,有时过度泛化;
  • 新增物体常依附主体:难以独立放置于环境中;
  • 极端视角或遮挡场景效果下降
  • 目前未优化推理速度,单段视频生成耗时较长。

团队正在持续训练与优化,后续版本预计将提升对细粒度属性的控制能力。

© 版权声明

相关文章

暂无评论

none
暂无评论...