Pixelle-Video:基于 ComfyUI 的模块化 AI 短视频生成引擎
Pixelle-Video:基于 ComfyUI 的模块化 AI 短视频生成引擎

Pixelle-Video:基于 ComfyUI 的模块化 AI 短视频生成引擎最新版

官方版无广告17

https://github.com/AIDC-AI/Pixelle-Video

更新日期:
2025年12月20日
语言:
中文
平台:

347.3MB0 人已下载 手机查看

Pixelle-Video 是一个开源的全自动短视频生成系统,用户只需输入一个主题,即可自动完成文案撰写、图像/视频生成、语音合成、配乐添加与最终合成的完整流程。项目采用模块化设计,底层基于 ComfyUI 工作流架构,所有能力均可灵活替换或扩展,适合希望兼顾自动化效率与创作控制权的用户。

Pixelle-Video

最新版本(2025 年 12 月)新增自定义素材支持,允许用户上传自有图片或视频,系统将通过多模态模型分析内容,并据此生成匹配的解说文案与旁白,进一步降低创作门槛。

核心能力

智能文案生成

  • 基于用户输入的主题(如“如何高效学习”),调用 LLM(如 GPT-4o、通义千问、DeepSeek 或本地 Ollama 模型)生成结构化解说脚本
  • 支持跳过 AI 创作,直接输入固定文案用于视频生成

视觉内容生成

  • AI 配图:为每段文案生成匹配插图,支持 FLUX、WAN 2.1 等图像模型
  • AI 视频:可生成动态背景视频(如抽象动画、场景模拟)
  • 自定义素材(v2025.12.04 新增):
    • 上传图片:AI 自动识别内容并生成描述
    • 上传视频:分析场景、人物、动作,用于脚本上下文理解
    • 基于素材与用户意图,自动生成解说词并匹配画面

语音与音频

  • 支持多种 TTS 引擎:Edge-TTS(免费)Index-TTS(支持语音克隆)ChatTTS 等
  • 可上传参考音频实现声音克隆(需对应 TTS 工作流支持)
  • 支持背景音乐(BGM):
    • 内置默认音乐
    • 自定义 MP3/WAV 文件(放入 bgm/ 目录)

视频合成与模板

  • 提供多类 HTML 视频模板:
    • static_*.html:纯文字动画(无需媒体生成)
    • image_*.html:以 AI 图片为背景
    • video_*.html:以 AI 视频为背景
  • 支持竖屏(9:16)、横屏(16:9)、方形(1:1)等多种比例
  • 模板与工作流可自行扩展(放入 templates/ 或 workflows/ 目录)

技术架构:模块化 + 可组合

Pixelle-Video 采用 “原子能力 + 工作流” 设计,整个生成流程分为四步:

  1. 文案生成 → 2. 配图/视频规划 → 3. 逐帧媒体生成 → 4. 最终合成
Pixelle-Video

每个环节均可独立配置:

  • LLM 可切换为 OpenAI、Qwen、DeepSeek 或本地 Ollama
  • 图像生成可选择本地 ComfyUI 或云端 RunningHub
  • TTS 可替换为任意 ComfyUI 兼容工作流
  • 视觉风格通过 Prompt Prefix(英文)全局控制,如:

    “Minimalist black-and-white matchstick figure style, clean lines”

使用流程(Web 界面)

1️⃣ 系统配置(首次使用)

  • LLM 设置:选择模型(如 Qwen-Max)、填写 API Key 与 Base URL
  • 图像设置
    • 本地:填写 ComfyUI 地址(默认 http://127.0.0.1:8188
    • 云端:填写 RunningHub API Key
  • 点击“保存配置”后即可使用

2️⃣ 内容输入(左侧)

  • 选择生成模式:AI 自动生成文案 或 手动输入固定脚本
  • 选择 BGM:无 / 内置 / 自定义

3️⃣ 语音与视觉(中间)

  • TTS 工作流:从下拉菜单选择(自动扫描 workflows/
  • 图像工作流:选择 ComfyUI 流程(默认 image_flux.json
  • 模板选择:按尺寸分组,支持预览

4️⃣ 生成与预览(右侧)

  • 点击“生成视频”,实时显示进度(如“分镜 3/5 - 生成插图”)
  • 完成后自动播放预览,视频保存至 output/ 目录

成本与部署选项

方案LLM图像生成成本适用场景
完全免费Ollama(本地)ComfyUI(本地)¥0有 NVIDIA 显卡,追求零成本
高性价比通义千问(API)ComfyUI(本地)极低无强 GPU,但希望高质量文案
免部署OpenAIRunningHub(云端)较高无本地环境,接受按量付费

所有本地组件(ComfyUI、Ollama)均为开源免费工具,项目本身不收取任何费用。

常见问题

Q:生成一个视频需要多久?
A:取决于分镜数量、模型响应速度与本地硬件。通常 2–5 分钟可完成 60 秒视频。

Q:效果不满意如何调整?
A:可分别优化:

  • 换 LLM 模型(改变文案风格)
  • 调整 Prompt Prefix(改变图像风格)
  • 更换 TTS 或上传参考音频(改变语音)
  • 试用不同视频模板(改变排版)

Q:是否支持批量生成?
A:是。v2025.11.18 起支持一次性提交多个主题,系统并行处理,提升批量创作效率。

适用场景

  • 内容创作者:快速生成知识类、观点类短视频初稿
  • 教育工作者:将知识点转化为带解说的可视化视频
  • 开发者/研究者:基于 ComfyUI 扩展自定义工作流(如集成新 TTS 或生图模型)

相关软件

K3U Installer

K3U Installer - 最新版

K3U Installer v2 Beta是一款功能强大、灵活且可视化的ComfyUI安装工具。它不仅简化了安装流程,还提供了丰富的配置选项和自动化支持,非常适合初次使用者和需要版本控制与自动化的高级开发者。

暂无评论

none
暂无评论...