Photoroom 团队正式发布了其首个开源文生图模型 PRX (Photoroom Experimental)。这是一个拥有 13 亿参数、完全从头开始训练 的扩散变换器模型,并以宽松的 Apache 2.0 许可证在 Hugging Face Diffusers 库中开放,旨在为社区提供一个强大且透明的研究基线。
- 模型:https://huggingface.co/Photoroom/prx-1024-t2i-beta
- Demo:https://huggingface.co/spaces/Photoroom/PRX-1024-beta-version
轻量、高效、完全开源
PRX 的设计哲学是“轻量而强大”。它采用了一种简化的 MMDiT 架构变体,结合 离散调度的流匹配(Flow Matching) 技术,实现了高效的图像生成。模型使用 Google 的 T5-Gemma-2B-2B-UL2 作为多语言文本编码器,并支持 Flux VAE(平衡质量与速度)和 DC-AE(更高压缩率)两种潜在空间骨干网络,兼顾了生成质量和推理速度。

目前发布的 Photoroom/prx-1024-t2i-beta 是一个 1024 像素分辨率的预览版本,经过监督式微调(SFT),可直接用于生成高质量图像。
不止于模型权重:开源完整训练旅程
Photoroom 强调,此次发布仅仅是开始。他们的目标远不止于分享模型权重,而是要开源整个大规模文生图模型的训练流程。这包括:
- 架构设计:对 DiT、UViT、MMDiT 等多种架构的基准测试与自研的 PRX 变体。
- 核心技术:REPA、对比流匹配、Muon 优化器等前沿训练技术的应用。
- 后处理方法:通过 LADD 蒸馏、SFT 和 DPO 进行模型对齐与优化。
- 实现细节:超参数扫描、精度设置、EMA 等工程实践。
为了实现这一目标,团队已启动一个深度博客系列,将逐步拆解从实验设计、加速训练到后处理对齐的每一个环节,确保过程的开放性与可复现性。

立即体验与未来规划
开发者可以通过 Diffusers 库轻松加载并试用 PRX 模型:
from diffusers.pipelines.prx import PRXPipeline
pipe = PRXPipeline.from_pretrained("Photoroom/prx-1024-t2i-beta", torch_dtype=torch.bfloat16).to("cuda")
image = pipe("夕阳下金色大草原中一只狮子的正面肖像", num_inference_steps=28).images[0]
未来,Photoroom 计划发布更多模型变体(包括基础版、蒸馏版)、完善 1024 像素模型,并深入探索基于 GRPO 等方法的偏好对齐技术。他们承诺将持续迭代,发布新权重,并记录全部研究过程,为文生图领域的开源研究贡献力量。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















