Capybara：统一视觉创作模型，一个模型搞定文生图、视频生成与全能编辑

61 0

在当前的 AI 视觉创作领域，我们正陷入一种“工具碎片化”的困境：生成图片用 Midjourney，生成视频换 Runway，修图得开 Photoshop，剪视频又要另一套流程。这些工具不仅接口割裂，更难以协同工作——想要“参考一张图生成视频，再对其中几帧进行风格化编辑并应用到全片”，往往需要在多个软件间反复跳转，效果也难以保证一致性。

Capybara 项目组今日推出了全新的统一视觉创作基础模型 Capybara，旨在彻底终结这一混乱局面。

GitHub：https://github.com/xgen-universe/Capybara
模型：https://huggingface.co/xgen-universe/Capybara
Demo：https://inappetent-acrophonically-alison.ngrok-free.dev

Capybara 不是一个简单的模型集合，而是一个真正的单一架构、全能型 AI 系统。它基于先进的扩散模型与 Transformer 架构，将文本到图像/视频生成、指令式编辑、上下文条件生成以及关键帧传播等能力完美融合。无论是从零开始的创意生成，还是对现有素材的精细修改，只需一个模型、一套接口，即可流畅完成。

核心突破：真正的“统一”而非“拼凑”

Capybara 的最大亮点在于其原生统一性。它并非将多个专家模型打包，而是通过一套内部表示和生成机制，同时处理静态图像与动态视频、生成任务与编辑任务。

1. 全覆盖的任务矩阵

Capybara 支持四大类核心创作任务，覆盖了视觉生产的全生命周期：

基础生成 (T2I/T2V)：输入文字描述，直接生成高保真图片或连贯视频。
上下文条件生成：
- 主体一致性 (S2I/S2V)：提供一张宠物照片，即可生成该宠物在各种场景下的新图或视频，身份锁定精准。
- 结构化控制 (C2I/C2V)：支持草图、姿态图、深度图作为控制条件，实现精确构图。
- 图生视频 (I2V)：基于单张起始帧，自动演绎出自然流畅的后续动作。
指令式编辑 (TI2I/TV2V)：输入“把白天变夜晚”或“给汽车换个颜色”，模型能精准修改指定区域，同时完美保护人物身份和背景结构。
上下文编辑与传播 (II2I/IV2V/VV2V)：
- 风格迁移：参考另一张图片的风格来重塑当前内容。
- 关键帧传播：这是视频编辑的杀手锏。只需编辑少数几帧（关键帧），模型即可自动将相同的修改逻辑平滑地应用到整段视频的其余部分，彻底解决长视频编辑的一致性难题。

2. 灵活的多模态“条件包”

Capybara 打破了单一输入的限制。你可以同时喂给它“文字描述 + 参考图片 + 草图 + 起始帧”，模型会像人类艺术家一样，综合所有信息进行创作。这种设计让复杂的创意意图表达变得直观而简单。

架构揭秘：“左右脑”分工的解耦智慧

为了实现既“听得懂”复杂指令，又“画得出”精细画面，Capybara 采用了创新的解耦式双通路架构：

左脑（语义模块）：
- 基于强大的预训练视觉语言模型（如 Qwen3-VL-8B-Instruct），负责“理解”。
- 它分析文字指令、解读参考图意图、拆解多模态约束。该模块在训练中保持冻结，确保保留顶级的语义推理能力。
右脑（视觉模块）：
- 基于扩散模型架构，负责“创作”。
- 它接收左脑的语义信号，结合具体的视觉条件（如草图、姿态），在像素级别进行高质量的生成与重绘。
联合工作区 (MMDiT)：
- 左右脑的信息在此深度融合，通过去噪过程逐步构建出最终的视觉内容。

这种设计巧妙避免了传统模型“懂但画不好”或“画得好但听不懂”的困境。