Apache 2.0 许可！Photoroom 推出轻量级 13 亿参数开源文生图模型 PRX

36 0

Photoroom 团队正式发布了其首个开源文生图模型 PRX (Photoroom Experimental)。这是一个拥有 13 亿参数、完全从头开始训练 的扩散变换器模型，并以宽松的 Apache 2.0 许可证在 Hugging Face Diffusers 库中开放，旨在为社区提供一个强大且透明的研究基线。

模型：https://huggingface.co/Photoroom/prx-1024-t2i-beta
Demo：https://huggingface.co/spaces/Photoroom/PRX-1024-beta-version

轻量、高效、完全开源

PRX 的设计哲学是“轻量而强大”。它采用了一种简化的 MMDiT 架构变体，结合 离散调度的流匹配（Flow Matching） 技术，实现了高效的图像生成。模型使用 Google 的 T5-Gemma-2B-2B-UL2 作为多语言文本编码器，并支持 Flux VAE（平衡质量与速度）和 DC-AE（更高压缩率）两种潜在空间骨干网络，兼顾了生成质量和推理速度。

Apache 2.0 许可！Photoroom 推出轻量级 13 亿参数开源文生图模型 PRX

目前发布的 Photoroom/prx-1024-t2i-beta 是一个 1024 像素分辨率的预览版本，经过监督式微调（SFT），可直接用于生成高质量图像。

不止于模型权重：开源完整训练旅程

Photoroom 强调，此次发布仅仅是开始。他们的目标远不止于分享模型权重，而是要开源整个大规模文生图模型的训练流程。这包括：

架构设计：对 DiT、UViT、MMDiT 等多种架构的基准测试与自研的 PRX 变体。
核心技术：REPA、对比流匹配、Muon 优化器等前沿训练技术的应用。
后处理方法：通过 LADD 蒸馏、SFT 和 DPO 进行模型对齐与优化。
实现细节：超参数扫描、精度设置、EMA 等工程实践。

为了实现这一目标，团队已启动一个深度博客系列，将逐步拆解从实验设计、加速训练到后处理对齐的每一个环节，确保过程的开放性与可复现性。

立即体验与未来规划

开发者可以通过 Diffusers 库轻松加载并试用 PRX 模型：

from diffusers.pipelines.prx import PRXPipeline
pipe = PRXPipeline.from_pretrained("Photoroom/prx-1024-t2i-beta", torch_dtype=torch.bfloat16).to("cuda")
image = pipe("夕阳下金色大草原中一只狮子的正面肖像", num_inference_steps=28).images[0]

未来，Photoroom 计划发布更多模型变体（包括基础版、蒸馏版）、完善 1024 像素模型，并深入探索基于 GRPO 等方法的偏好对齐技术。他们承诺将持续迭代，发布新权重，并记录全部研究过程，为文生图领域的开源研究贡献力量。