昆仑万维天工项目组推出多模态模型Skywork UniPic:能够统一处理图像理解、文本到图像生成和图像编辑等多种任务

多模态模型4个月前发布 小马良
221 0

昆仑万维天工项目组推出多模态模型Skywork UniPic,它是一个参数量为15亿的自回归模型,能够统一处理图像理解、文本到图像生成和图像编辑等多种任务,而无需针对每个任务单独适配或连接模块。

例如,它可以将普通照片转换为宫崎骏风格的艺术作品(类似于 GPT-4o 的“Ghiblification”功能),或者根据用户输入的文本指令生成图像,还可以对现有图像进行精确的编辑,如更换背景、改变颜色或替换主体等。

昆仑万维天工项目组推出多模态模型Skywork UniPic:能够统一处理图像理解、文本到图像生成和图像编辑等多种任务

主要功能

  • 图像理解:能够理解图像内容并生成相关的文本描述。
  • 文本到图像生成:根据文本指令生成高质量的图像。
  • 图像编辑:根据自然语言指令对图像进行精确的修改,如添加、删除、替换图像中的元素,或改变风格。
昆仑万维天工项目组推出多模态模型Skywork UniPic:能够统一处理图像理解、文本到图像生成和图像编辑等多种任务

主要特点

  • 统一架构:在一个模型内整合多种功能,避免了传统方法中需要多个独立模型的弊端。
  • 参数高效:仅用15亿参数就达到了与更大模型相当甚至更好的性能。
  • 高效部署:能够在普通硬件(如 RTX 4090)上运行,生成1024×1024分辨率的图像,仅需15GB的 GPU 内存。
  • 高质量生成:在多个基准测试中表现出色,例如在 GenEval 上得分为0.86,在DPGBench上达到85.5分,在图像编辑任务上也取得了优异成绩。

工作原理

  • 解耦编码策略:使用掩码自回归编码器(MAR)处理生成任务,使用 SigLIP2 编码器处理理解任务,两者共享一个自回归解码器,从而实现双向知识转移。
  • 渐进式训练:从256×256分辨率开始,逐步提升到1024×1024,同时动态解冻参数以平衡容量和稳定性。
  • 精心策划的数据集:使用大规模(1亿级别)的数据集,并结合特定任务的奖励模型来优化生成和编辑目标。

测试结果

  • 图像生成:在 GenEval 上得分为0.86,超越了大多数现有统一模型;在DPGBench上创下85.5分的新纪录。
  • 图像编辑:在 GEditBench-EN 上得分为5.83,在ImgEdit-Bench上得分为3.49,表现出色。
  • 资源效率:仅用15亿参数就实现了上述性能,相比参数量更大的模型(如 BAGEL 的140亿参数或 UniWorld-V1 的190亿参数),Skywork UniPic 在资源效率上具有显著优势。
© 版权声明

相关文章

暂无评论

none
暂无评论...