Apache 2.0 许可!Photoroom 推出轻量级 13 亿参数开源文生图模型 PRX

Photoroom 团队正式发布了其首个开源文生图模型 PRX (Photoroom Experimental)。这是一个拥有 13 亿参数完全从头开始训练 的扩散变换器模型,并以宽松的 Apache 2.0 许可证在 Hugging Face Diffusers 库中开放,旨在为社区提供一个强大且透明的研究基线。

轻量、高效、完全开源

PRX 的设计哲学是“轻量而强大”。它采用了一种简化的 MMDiT 架构变体,结合 离散调度的流匹配(Flow Matching) 技术,实现了高效的图像生成。模型使用 Google 的 T5-Gemma-2B-2B-UL2 作为多语言文本编码器,并支持 Flux VAE(平衡质量与速度)和 DC-AE(更高压缩率)两种潜在空间骨干网络,兼顾了生成质量和推理速度。

Apache 2.0 许可!Photoroom 推出轻量级 13 亿参数开源文生图模型 PRX

目前发布的 Photoroom/prx-1024-t2i-beta 是一个 1024 像素分辨率的预览版本,经过监督式微调(SFT),可直接用于生成高质量图像。

不止于模型权重:开源完整训练旅程

Photoroom 强调,此次发布仅仅是开始。他们的目标远不止于分享模型权重,而是要开源整个大规模文生图模型的训练流程。这包括:

  • 架构设计:对 DiT、UViT、MMDiT 等多种架构的基准测试与自研的 PRX 变体。
  • 核心技术:REPA、对比流匹配、Muon 优化器等前沿训练技术的应用。
  • 后处理方法:通过 LADD 蒸馏、SFT 和 DPO 进行模型对齐与优化。
  • 实现细节:超参数扫描、精度设置、EMA 等工程实践。

为了实现这一目标,团队已启动一个深度博客系列,将逐步拆解从实验设计、加速训练到后处理对齐的每一个环节,确保过程的开放性与可复现性。

Apache 2.0 许可!Photoroom 推出轻量级 13 亿参数开源文生图模型 PRX

立即体验与未来规划

开发者可以通过 Diffusers 库轻松加载并试用 PRX 模型:

from diffusers.pipelines.prx import PRXPipeline
pipe = PRXPipeline.from_pretrained("Photoroom/prx-1024-t2i-beta", torch_dtype=torch.bfloat16).to("cuda")
image = pipe("夕阳下金色大草原中一只狮子的正面肖像", num_inference_steps=28).images[0]

未来,Photoroom 计划发布更多模型变体(包括基础版、蒸馏版)、完善 1024 像素模型,并深入探索基于 GRPO 等方法的偏好对齐技术。他们承诺将持续迭代,发布新权重,并记录全部研究过程,为文生图领域的开源研究贡献力量。

© 版权声明

相关文章

暂无评论

none
暂无评论...