基于 GenAI 的视觉内容创作控制框架ZenCtrl：利用单张主体图像生成多视角、多样化场景的高分辨率图像，无需额外微调

图像模型11个月前更新小马良

552 0

ZenCtrl 是一款基于 GenAI 的视觉内容创作控制框架，专注于利用单张主体图像生成多视角、多样化场景的高分辨率图像，无需额外微调。它通过精细的控制能力和模块化设计，为创作者提供了一个强大且灵活的工具。

GitHub：https://github.com/FotographerAI/ZenCtrl
模型：https://huggingface.co/fotographerai/zenctrl_tools
Demo：https://huggingface.co/spaces/fotographerai/ZenCtrl

ZenCtrl是基于OminiControl的，但增加了更细粒度的控制、一致的主题保留和更完善的现成模型。我们的目标是构建一个代理式视觉生成系统，能够根据LLM驱动的配方来协调图像/视频的创作。

2025-05-06: 📢 更新——源代码发布，最新模型权重可在Hugging Face上获得！

核心功能

无需微调：仅需一张主体图像即可启动创作流程，无需额外训练。
精细控制：支持形状、姿态、相机角度和上下文的精确控制。
高分辨率与多场景生成：支持高分辨率图像输出，并适应多种场景需求。
模块化设计：涵盖预处理、控制、编辑和后处理任务，可根据需求自由组合。

工具包组件

预处理

背景移除：快速去除背景，提取主体。
深度抠图：实现精准边缘处理。
形状重塑：调整主体形状以适应不同需求。
分割：精准提取图像关键部分。

控制模型

形状控制：通过 Canny 边缘检测、HED 等技术，确保形状一致性。
姿态控制：利用 OpenPose 和 DensePose 技术，精确控制人物姿态。
掩码控制：精准控制图像特定区域。
相机视角控制：支持多视角生成，模拟不同拍摄角度。

编辑模型

内部填充：包括去除、遮罩编辑、替换等操作。
外部扩展：扩展图像边界，增加背景或元素。
变换/运动：调整主体或元素的运动状态。
重新打光：模拟不同光照条件下的效果。

后处理

去模糊：清晰化模糊图像。
颜色修复：调整色彩，提升视觉效果。
自然融合：确保生成内容与背景自然融合。

支持的任务

背景生成：自动生成背景。
受控背景生成：根据需求定制背景。
主题一致的上下文感知生成：确保生成内容与主体语义一致。
对象和主题放置：将对象放置在特定场景中（即将推出）。
上下文中的图像/视频生成：生成与上下文相关的图像或视频（即将推出）。
多对象/主题合并与融合：将多个对象或主题融合到一个场景中（即将推出）。
视频生成：生成连贯的视频内容（即将推出）。

目标应用场景

产品摄影：快速生成不同角度的产品展示图。
时尚及配饰试穿：虚拟试穿服装、配饰，展示效果。
虚拟试穿：如鞋子、帽子、眼镜等的虚拟试穿。
人物与肖像控制：精准控制人物姿态和表情。
插画、动画和广告创意：快速生成创意内容，提升创作效率。

权重与适配器

ZenCtrl 使用了基于 OminiControl Pipeline 微调的权重，支持空间对齐和非对齐任务。这些权重将很快公开，用户可以将其作为适配器加载到项目中使用。

控制、任务和类别

控制：包括预处理、形状控制、姿态控制、掩码控制、相机视角控制等。
任务：背景生成、受控背景生成、上下文一致性生成、对象放置、视频生成等。
类别：产品摄影、时尚、配饰、虚拟试穿、人物等。

图像模型 # OminiControl # ZenCtrl # 图像控制框架

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

See-through：一张静态动漫图，自动“透视”拆分为可动 2.5D 角色

新See-through：一张静态动漫图，自动“透视”拆分为可动 2.5D 角色

图像模型 # Live2D 模型 # See-through

6小时前

030

新型文生图模型CoMat：更好地理解和执行文本描述，提高了文本到图像生成的质量和准确性

新型文生图模型CoMat：更好地理解和执行文本描述，提高了文本到图像生成的质量和准确性

图像模型 # CoMat # 文生图模型

1年前

01,1470

黑森林实验室发布FLUX.2 ：支持400万像素编辑+10图参考，开放权重模型刷新视觉AI上限

黑森林实验室发布FLUX.2 ：支持400万像素编辑+10图参考，开放权重模型刷新视觉AI上限

图像模型 # FLUX.2 # 黑森林实验室

4个月前

01100

Stability AI 推出 SD3.5-Flash：让高质量图像生成在消费级设备上实现秒级输出

Stability AI 推出 SD3.5-Flash：让高质量图像生成在消费级设备上实现秒级输出

图像模型 # SD3.5-Flash # Stability AI

6个月前

04240

暂无评论

none

暂无评论...