Fal.ai平台推出了新一代GAN 图像放大工具AuraSR的第二版AuraSR-v2

Fal.ai平台推出了新一代GAN 图像放大工具AuraSR的第二版,上个月它们推出了AuraSR 第一版后,得到了开源社区积极回应,让他们立刻着手开发新版。AuraSR 以 Adobe 的 Gigagan 论文为基础,以 lucidrain 的实现作为起点。Gigagan 图像放大器专为生成图像设计,在训练时未加入退化预处理。因此,AuraSR 第一版在放大 JPG 压缩图像时会出现伪影。

之前很多人使用AuraSR 来处理非生成图像及各种类型的图像,因此在 v2 中Fal.ai加入了一个类似于 ESRGAN 训练的图像退化过程。此外,第一版在细节增强上过于激进。这一问题源于训练和测试数据的不一致。在训练第一版时,Fal.ai会将较大的图像缩放到 256 像素作为标准图像,并再次缩放到 64 像素作为低分辨率输入。

然而,在实际应用中,第一版会放大 64 像素的图像块。图像小块与整体在细节丰富度上有显著差异。因此,在第二版的训练中,Fal.ai采用了 1024 像素图像的 256 像素块。这使得训练过程更贴近实际应用场景。为了解决图像块接缝问题,Fal.ai对推理库 aura 进行了更新,新增了 upscale_4x_overlapped 方法,通过两次重叠图像块的推理并平均结果,有效消除了接缝。

AuraSR 第二版沿用了与第一版相同的架构,可以无缝替代旧版。模型已在 Huggingface 平台上线,并已部署至 fal 提供的 AuraSR 服务端。Fal.ai期待着开发第三版,计划采用更高分辨率的图像、更多的面部图像,并尝试全新的架构。

一幅放大的图像细节图。从左至右依次为:AuraSR v1 未采用块混合处理,可以看到明显的接缝和瑕疵;AuraSR v2 采用了块混合处理;RealESRGAN_4xPlus。AuraSR v2 能够在放大处理时更好地保留实际场景图像的细节,而且没有瑕疵。

0

评论0

没有账号?注册  忘记密码?