昆仑万维天工项目组推出多模态模型Skywork UniPic,它是一个参数量为15亿的自回归模型,能够统一处理图像理解、文本到图像生成和图像编辑等多种任务,而无需针对每个任务单独适配或连接模块。
- GitHub:https://github.com/SkyworkAI/UniPic
- 模型:https://huggingface.co/Skywork/Skywork-UniPic-1.5B
- Demo:https://huggingface.co/spaces/Skywork/UniPic
例如,它可以将普通照片转换为宫崎骏风格的艺术作品(类似于 GPT-4o 的“Ghiblification”功能),或者根据用户输入的文本指令生成图像,还可以对现有图像进行精确的编辑,如更换背景、改变颜色或替换主体等。

主要功能
- 图像理解:能够理解图像内容并生成相关的文本描述。
- 文本到图像生成:根据文本指令生成高质量的图像。
- 图像编辑:根据自然语言指令对图像进行精确的修改,如添加、删除、替换图像中的元素,或改变风格。

主要特点
- 统一架构:在一个模型内整合多种功能,避免了传统方法中需要多个独立模型的弊端。
- 参数高效:仅用15亿参数就达到了与更大模型相当甚至更好的性能。
- 高效部署:能够在普通硬件(如 RTX 4090)上运行,生成1024×1024分辨率的图像,仅需15GB的 GPU 内存。
- 高质量生成:在多个基准测试中表现出色,例如在 GenEval 上得分为0.86,在DPGBench上达到85.5分,在图像编辑任务上也取得了优异成绩。
工作原理
- 解耦编码策略:使用掩码自回归编码器(MAR)处理生成任务,使用 SigLIP2 编码器处理理解任务,两者共享一个自回归解码器,从而实现双向知识转移。
- 渐进式训练:从256×256分辨率开始,逐步提升到1024×1024,同时动态解冻参数以平衡容量和稳定性。
- 精心策划的数据集:使用大规模(1亿级别)的数据集,并结合特定任务的奖励模型来优化生成和编辑目标。
测试结果
- 图像生成:在 GenEval 上得分为0.86,超越了大多数现有统一模型;在DPGBench上创下85.5分的新纪录。
- 图像编辑:在 GEditBench-EN 上得分为5.83,在ImgEdit-Bench上得分为3.49,表现出色。
- 资源效率:仅用15亿参数就实现了上述性能,相比参数量更大的模型(如 BAGEL 的140亿参数或 UniWorld-V1 的190亿参数),Skywork UniPic 在资源效率上具有显著优势。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















