LOADING STUFF...

PixArt-α与PixArt-LCM模型

Estimated reading: 2 minutes 537 views

来自华为诺亚方舟实验室、大连理工大学、香港大学的研究团队推出的开源文生图模型PixArt系列,在近期发布了基于DiT架构的新模型PixArt-Σ,可以直出4K图片,不过官方尚未释出模型,但之前推出的PixArt-αPixArt-LCM模型已经能够生成质量非常高的图片了,只是关注度小,针对此系列模型的优化、第三方应用及衍生模型都非常少。

PixArt-α与PixArt-LCM模型

想要体验此模型可以使用官方提供的Demo,也可以本地自己搭建,目前ComfyUI已有两款插件支持在本地运行此模型,今天就来看看吧!

视频说明:

PixArt-α与PixArt-LCM模型

ComfyUI-PixArt-alpha-Diffusers

插件地址:https://github.com/ZHO-ZHO-ZHO/ComfyUI-PixArt-alpha-Diffusers

此插件是由ZHO-ZHO-ZHO开发,这位开发者对于新模型及技术反应非常快,基本上新出的模型及技术,他都会第一时间在ComfyUI上推出插件,提供接近于官方Demo的体验,但官方Demo在Hugging Face所使用的GPU,基本都是A10甚至A100,而普通用户所使用的GPU在运行这些新模型的时候就比较吃力,比如此插件在运行PixArt-α模型进行图片生成对应显存占用就非常高,生成时间非常长。

PixArt-α与PixArt-LCM模型

如何安装

对于插件安装,请参考:插件安装

1、推荐使用管理器 ComfyUI Manager 安装

PixArt-α与PixArt-LCM模型

2、手动安装:

cd custom_nodes
git clone https://github.com/ZHO-ZHO-ZHO/ComfyUI-PixArt-alpha-Diffusers.git
cd custom_nodes/ComfyUI-PixArt-alpha-Diffusers
pip install -r requirements.txt
重启 ComfyUI

如何使用

此插件提供了三个节点,基本上就是复刻官方Demo提供的功能,那么你的设置就可以参考官方Demo所给出的设置。

🖼️PixArtAlpha ModelLoader:加载模型

支持从 huggingface hub 自动下载模型,输入模型名称(如:PixArt-alpha/PixArt-XL-2-1024-MS)即可,模型会下载到C:\Users\用户名\.cache\huggingface\hub文件夹下,模型有20.3G这么大,因此C盘空间小的朋友谨慎下载

PixArt-α与PixArt-LCM模型

🖼️PixArtAlpha Styler:提示词与风格

  • 与各种提示词(文本)输入(如肖像大师等)、styler、 Photomaker Prompt_Styler 兼容
  • prompt、negative:正负提示词
  • style_name:支持官方提供的10种风格

PixArt-α与PixArt-LCM模型

🖼️PixArtAlpha Generation:参数设置

  • pipe:接入模型
  • positivet、negative:正负提示词
  • width、height:宽度、高度
  • step:步数,官方默认20-25步
  • guidance_scale:提示词相关度,DPM-Solver默认为4.5,SA-Solver默认为3
  • schedule:2种调度器,DPM-Solver 和 SA-Solver
  • seed:种子

PixArt-α与PixArt-LCM模型

对于采样器的设置大家可以参考官方Demo,DPM-Solver可设置范围5~40,SA-Solver可设置范围10~40

PixArt-α与PixArt-LCM模型

三个节点即可组成一个PixArt模型基础工作流

PixArt-α与PixArt-LCM模型

此模型及插件没有优化,因此在生成图片的时候对于显存占用非常高,生成图片速度也非常慢,一张2048x1536的图片生成要14分钟多。

PixArt-α与PixArt-LCM模型

PixArt-α与PixArt-LCM模型

奇怪的是将尺寸更改为1024x1024,显存占用及生成时间并没有降低

PixArt-α与PixArt-LCM模型

更改采样器,生成速度基本没有改变,对于显卡不好的朋友,此插件谨慎尝试

PixArt-α与PixArt-LCM模型

生成效果

提示词:

Phantasmal iridescent of [a beautiful anime woman with iridescent multicolored luminous eyes and hair], low light ambience aesthetics. Illustration, Synaptic Transmission, Phasomelic
Plasomelic, Synaptic Lightning, Fluorescent Paint, Quarkonium, Nanoclay, Lumimelic,Aquamelic, Bioluminescent, Biolumiphile, Biolumiphile Fluorescentdots, Nucleotidescape,
Lumidots, 32k, uhd. in Katsuhiro Otomos anime NIJI style, hyper - detailed, inventive character designs, saturated color field

尺寸:2048x1536 (图片上传网站,有压缩)

PixArt-α与PixArt-LCM模型

尺寸:1024x1024

PixArt-α与PixArt-LCM模型

Extra Models for ComfyUI

插件地址:https://github.com/city96/ComfyUI_ExtraModels

PixArt开发者官方推荐的ComfyUI插件,但此插件更新较少,对于官方的采样、风格支持并不好,但生成速度比ComfyUI-PixArt-alpha-Diffusers快非常多,只是在加载T5模型的时候对于电脑内存占用非常高,还有爆内存的风险。

PixArt-α与PixArt-LCM模型

如何安装

手动安装依赖会比较麻烦,使用管理器 ComfyUI Manager 安装。

PixArt-α与PixArt-LCM模型

如何使用

PixArt工作流

此插件将PixArt模型与T5模型分开加载,每次重写提示词都会加载一次T5模型,T5模型加载的时候,电脑内存占用非常高,虽然有爆内存的风险。

T5模型:由Google Brain团队在2019年提出的一种基于Transformer结构的预训练语言模型,全称为Text-to-Text Transfer Transformer,即文本到文本转移Transformer。T5模型的主要目标是通过一种统一的文本到文本的预训练框架,实现多种NLP任务的预训练和微调。

PixArt-α与PixArt-LCM模型

模型下载:

PixArt-α与PixArt-LCM模型

对内存占用直接飙到100%,因此在使用此工作流的时候,请关闭其他应用

PixArt-α与PixArt-LCM模型

每次生成都有爆内存的风险

PixArt-α与PixArt-LCM模型

PixArt LCM工作流

此工作流在基础的PixArt工作流上添加一个ModelSamplingDiscrete节点,然后采样算法和采样器都选择lcm,参数方面CFG 应该设置在1.1~1.5,步数设置在4~10

PixArt-α与PixArt-LCM模型

此插件图片尺寸设置方面比较特殊,通过调整ratio参数来改变大小,基础的1是1024x1024

PixArt-α与PixArt-LCM模型

模型及工作流下载

暂无评论

none
暂无评论...
分享此文档

PixArt-α与PixArt-LCM模型

或复制链接

文章目录
朱雀大模型检测

朱雀大模型检测

腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
Open ASR 排行榜

Open ASR 排行榜

Open ASR 排行榜 对 Hugging Face Hub 上的语音识别模型进行排名和评估。我们报告平均 WER(字错误率)(⬇️ 越低越好)和 RTFx(实时因子)(⬆️ 越高越好),模型根据其平均 WER 从低到高进行排名。
Daan

Daan

Daan 是一款简洁、高效的LLM客户端,适合那些希望快速上手并享受流畅AI体验的用户。它不仅支持多种模型和API,还提供了丰富的个性化设置,让你能够根据自己的需求打造专属的AI助手。
Tripo

Tripo

Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
Genspark

Genspark

Genspark 超级智能体——您的全能AI伙伴,从拨打电话、制作幻灯片到生成TikTok短视频,轻松应对日常任务。内置80+预装工具与海量数据集,更快、更可靠、更可控。
MinerU

MinerU

MinerU是一款功能强大、操作简单的文档解析工具。它不仅支持多种格式和导入方式,还能精准提取复杂元素,适用于多种场景。无论是学术研究、数据分析还是日常办公,MinerU都能为你带来流畅、准确的解析体验。在科研、学习和工作中,处理复杂文档格式一直是一个让人头疼的问题。无论是科技文献中的公式、表格,还是多语言扫描版PDF,传统工具往往难以满足高效、精准的解析需求。而今天要介绍的 MinerU,正是一款专为解决这些问题而生的免费文档解析神器。它不仅能精准提取复杂元素,还支持多种格式一键转换,适用于从机器学习到大模型语料生产的多种场景。 全格式兼容,轻松导入 MinerU 的一大亮点是其强大的格式兼容性。无论你的文档是 PDF、Word、PPT 还是图片,MinerU 都能轻松应对。通过简单的拖拽、截图或批量上传,你就可以快速将文件导入工具中,无需繁琐的操作。 支持格式:PDF、Word、PPT、图片等主流文档类型。 操作便捷:拖拽、截图、批量上传,一键完成导入。 智能识别:自动检测扫描版PDF和乱码PDF,并启用OCR功能,支持84种语言的检测与识别。 复杂元素精准提取 对于科技文献、学术论文等包含复杂排版的文档,MinerU 表现尤为出色。它能够精准定位并提取图表、公式等复杂元素,确保内容完整且语义连贯。 精准定位:自动识别文档中的图表、公式、表格等复杂元素,并进行精准提取。 结构保留:输出结果保留原文档的标题、段落、列表等结构,确保逻辑清晰。 多模态解析:支持图像描述、表格标题、脚注等内容的提取,适配多种使用场景。 多场景极速输出 MinerU 不仅擅长解析文档,还提供了丰富的输出格式选择,满足不同场景的需求。无论是用于机器学习训练、大模型语料生产,还是构建 RAG(检索增强生成)系统,MinerU 都能提供高效的解决方案。 多种输出格式: Markdown:适合多模态与NLP任务。 JSON:按阅读顺序排序,便于后续处理。 LaTeX:自动识别并转换公式,极大提升科研效率。 HTML:自动转换表格,方便网页展示。 可视化支持:提供 layout 可视化、span 可视化等功能,便于高效确认输出效果与质检。 技术亮点与性能优化 MinerU 在技术层面同样表现出色,兼顾了易用性与性能优化: 跨平台支持:兼容 Windows、Linux 和 Mac 平台,满足不同用户的设备需求。 硬件加速:支持纯 CPU 环境运行,同时可选 GPU(CUDA)、NPU(CANN)、MPS 加速,显著提升处理速度。 高精度 OCR:针对扫描版PDF和乱码文档,MinerU 内置高精度OCR功能,支持84种语言的检测与识别。 主要功能一览 MinerU 的核心功能覆盖了文档解析的方方面面,帮助用户高效完成复杂的文档处理任务: 删除冗余元素:自动移除页眉、页脚、脚注、页码等内容,确保输出文本语义连贯。 阅读顺序优化:输出符合人类阅读习惯的文本,无论是单栏、多栏还是复杂排版都能轻松应对。 公式与表格转换: 自动识别并转换公式为 LaTeX 格式。 自动识别并转换表格为 HTML 格式。 多语言支持:OCR 功能支持84种语言,满足国际化需求。 灵活输出:支持多种格式输出(Markdown、JSON、LaTeX、HTML 等),适配多种应用场景。 适用场景广泛 MinerU 的设计初衷是为了服务于科研和技术发展,但它的应用范围远不止于此。以下是一些典型的应用场景: 机器学习与大模型训练:将大量文档转化为高质量的训练数据,助力模型语料生产。 RAG 系统构建:为检索增强生成系统提供结构化数据支持。 学术研究:快速解析科技文献,提取关键信息,提升科研效率。 企业办公:批量处理合同、报告等文档,节省人工整理时间。 为什么选择 MinerU? 相比其他文档解析工具,MinerU 的优势在于其全面性和精准性。它不仅能够处理各种复杂文档,还能根据用户需求输出多样化的结果。更重要的是,MinerU 完全免费,且持续优化以解决科技文献中的符号转化问题,为大模型时代的技术进步贡献力量。
查看完整榜单