昆仑万维天工项目组推出多模态模型Skywork UniPic：能够统一处理图像理解、文本到图像生成和图像编辑等多种任务

多模态模型7个月前发布小马良

354 0

昆仑万维天工项目组推出多模态模型Skywork UniPic，它是一个参数量为15亿的自回归模型，能够统一处理图像理解、文本到图像生成和图像编辑等多种任务，而无需针对每个任务单独适配或连接模块。

GitHub：https://github.com/SkyworkAI/UniPic
模型：https://huggingface.co/Skywork/Skywork-UniPic-1.5B
Demo：https://huggingface.co/spaces/Skywork/UniPic

例如，它可以将普通照片转换为宫崎骏风格的艺术作品（类似于 GPT-4o 的“Ghiblification”功能），或者根据用户输入的文本指令生成图像，还可以对现有图像进行精确的编辑，如更换背景、改变颜色或替换主体等。

昆仑万维天工项目组推出多模态模型Skywork UniPic：能够统一处理图像理解、文本到图像生成和图像编辑等多种任务

主要功能

图像理解：能够理解图像内容并生成相关的文本描述。
文本到图像生成：根据文本指令生成高质量的图像。
图像编辑：根据自然语言指令对图像进行精确的修改，如添加、删除、替换图像中的元素，或改变风格。

昆仑万维天工项目组推出多模态模型Skywork UniPic：能够统一处理图像理解、文本到图像生成和图像编辑等多种任务

主要特点

统一架构：在一个模型内整合多种功能，避免了传统方法中需要多个独立模型的弊端。
参数高效：仅用15亿参数就达到了与更大模型相当甚至更好的性能。
高效部署：能够在普通硬件（如 RTX 4090）上运行，生成1024×1024分辨率的图像，仅需15GB的 GPU 内存。
高质量生成：在多个基准测试中表现出色，例如在 GenEval 上得分为0.86，在DPGBench上达到85.5分，在图像编辑任务上也取得了优异成绩。

工作原理

解耦编码策略：使用掩码自回归编码器（MAR）处理生成任务，使用 SigLIP2 编码器处理理解任务，两者共享一个自回归解码器，从而实现双向知识转移。
渐进式训练：从256×256分辨率开始，逐步提升到1024×1024，同时动态解冻参数以平衡容量和稳定性。
精心策划的数据集：使用大规模（1亿级别）的数据集，并结合特定任务的奖励模型来优化生成和编辑目标。

测试结果

图像生成：在 GenEval 上得分为0.86，超越了大多数现有统一模型；在DPGBench上创下85.5分的新纪录。
图像编辑：在 GEditBench-EN 上得分为5.83，在ImgEdit-Bench上得分为3.49，表现出色。
资源效率：仅用15亿参数就实现了上述性能，相比参数量更大的模型（如 BAGEL 的140亿参数或 UniWorld-V1 的190亿参数），Skywork UniPic 在资源效率上具有显著优势。

多模态模型 # Skywork UniPic # 多模态模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Thyme：会生成代码的多模态模型，突破“图像思考”边界

Thyme：会生成代码的多模态模型，突破“图像思考”边界

多模态模型 # Thyme # 多模态模型

7个月前

01230

苹果推出视觉语言模型FastVLM：用更少的视觉 Token，更快理解高分辨率图像

苹果推出视觉语言模型FastVLM：用更少的视觉 Token，更快理解高分辨率图像

多模态模型 # FastVLM # 苹果 # 视觉语言模型

6个月前

0890

新型目标检测模型Mamba-YOLO-World：能够理解并识别各种不同物体的智能系统，即使这些物体在训练时没有被明确标记

新型目标检测模型Mamba-YOLO-World：能够理解并识别各种不同物体的智能系统，即使这些物体在训练时没有被明确标记

多模态模型 # Mamba-YOLO-World # 目标检测模型

1年前

06790

天工AI推出多模态推理模型 Skywork R1V2：引入混合强化学习框架，提升模型在复杂推理和通用视觉理解任务中的表现

天工AI推出多模态推理模型 Skywork R1V2：引入混合强化学习框架，提升模型在复杂推理和通用视觉理解任务中的表现

多模态模型 # Skywork R1V2 # 多模态推理模型 # 天工AI

11个月前

04490

暂无评论

none

暂无评论...