Pixelle MCP

7个月前更新 790 00

Pixelle MCP是一款全模态融合智能体框架，基于 MCP 协议的 AIGC 方案，0代码将 ComfyUI 工作流无缝转化为 MCP Tool，让 LLM 与 ComfyUI 强强联合。

所在地：

中国

收录时间：

2025-08-09

其他站点:

官方文档官网

打开网站手机查看

Pixelle MCP

打开网站

在 AI 应用向“智能体（Agent）”演进的当下，如何让大语言模型（LLM）真正调用本地生成能力，成为摆在开发者面前的关键问题。

Pixelle MCP 正是为此而生——它是一个基于 MCP（Model Context Protocol）协议构建的 AIGC 智能体框架，目标是将 ComfyUI 的强大生成能力，以“零代码”方式暴露为 LLM 可调用的工具，实现 文本、图像、声音、视频（TISV）全模态的无缝协同。

无需编写函数、无需封装 API，你已有的 ComfyUI 工作流，就是现成的 MCP Tool。

项目架构：模块化设计，灵活可扩展

Pixelle MCP 采用清晰的三模块架构，职责分明，支持独立部署与组合使用：

模块	说明
`mcp-server` 🗄️	核心服务端，基于 ComfyUI 构建，负责执行图像/视频/音频生成任务，通过 MCP 协议对外提供工具接口
`mcp-client` 🌐	客户端界面，基于 Chainlit 开发，提供可视化聊天交互环境，支持多 Server 接入
`mcp-base` 🔧	基础服务层，统一管理文件存储、日志、配置共享等共用能力，支撑前后端协同

三者可联合部署为完整平台，也可单独使用 Server 或 Client，适配不同场景。

✅ 核心特性

1. 🔄 全模态支持：TISV 能力全覆盖

支持 Text、Image、Sound/Speech、Video 四大模态之间的任意转换与生成：

输入 → 输出	支持情况
文本 → 图像/视频/语音	✅
图像 → 文本/视频	✅
视频 → 文本/图像	✅
语音 → 文本/字幕	✅
文本 → 语音	✅（TTS）

依托 ComfyUI 插件生态，可快速集成：

文生图（Stable Diffusion、Kolors）
图生视频（Wan2.2、CogVideoX）
语音合成与识别（Whisper、VITS）
控制生成（Canny、Pose、Depth）

2. 🧩 深度集成 ComfyUI 生态

Server 端原生基于 ComfyUI 实现，完全兼容其节点系统与插件生态
所有已安装插件（如 Impact Pack、WanVideoWrapper）均可直接用于构建工作流
支持加载 LoRA、ControlNet、VAE 等资源，不损失任何生成能力

你熟悉的 ComfyUI，就是 Pixelle MCP 的“引擎”。

3. 🔧 零代码开发：Workflow 即 MCP Tool

这是 Pixelle MCP 的最大亮点：

你在 ComfyUI 中搭建的工作流，无需任何代码改造，即可自动成为 LLM 可调用的 MCP 工具。

无需写函数、无需重启服务、无需 API 开发，改配置即上线。

4. 🗄️ 标准 MCP Server：广泛兼容主流客户端

遵循标准 MCP 协议 v1，提供 /mcp-servers 和 /tools 接口
支持被以下客户端直接集成：
- Cursor
- Claude Desktop
- Chainlit Agent
- 其他支持 MCP 的 IDE 或 Agent 框架

让你的本地 AIGC 能力，无缝接入主流 AI 编程环境。

5. 🌐 友好 MCP Client：基于 Chainlit 的交互体验

提供 Web 界面，支持：
- 自然语言对话
- 文件上传与结果预览
- 工具调用过程可视化
- 多轮上下文管理
支持连接多个 MCP Server，统一管理不同来源的工具
继承 Chainlit 的丰富 UI 组件，易于二次开发

既可作为独立客户端使用，也可嵌入企业内部系统。

6. 🔄 灵活部署：按需选择运行模式

部署模式	适用场景
仅运行 Server	将本地 ComfyUI 能力暴露为 MCP 服务，供其他客户端调用
仅运行 Client	连接多个 MCP Server（如公司私有服务、云端 API），统一调用
联合部署	本地一站式使用：对话 + 生成 + 预览

所有模式共用同一套配置体系，迁移与维护更简单。

7. ⚙️ 统一配置：YAML 管理所有服务

所有工具、路径、参数均通过一个 config.yaml 文件集中管理：

结构清晰，易于版本控制
支持热加载，修改后无需重启
便于团队协作与部署标准化

典型使用场景

场景	实现方式
AI 设计助手	LLM 接收需求 → 调用“logo生成”工具 → 返回图像
自动化内容生产	输入文案 → 自动生成配图/短视频 → 输出成稿
语音交互系统	用户语音输入 → ASR 转文本 → 生成响应图像 → TTS 播出
研究与实验平台	快速验证多模态任务的 Agent 编排逻辑

数据统计

暂无评论

暂无评论...