Controlnet作者lllyasviel新开源项目Omost:将大语言模型的编程能力转化为图像合成能力

Controlnet作者lllyasviel的新开源项目Omost,这是一个将大语言模型的编程能力转化为图像合成能力的项目。项目名称“Omost”(发音类似于“almost”,意为“几乎”)蕴含双重意义:1) 每次使用 Omost 之后,你的图像几乎就成型了;2) “O”代表“全模态”(omni-modal),而“most”表达了我们想要充分发挥其潜力的愿望。

Omost 提供了能够编写代码的大语言模型,这些代码将与 Omost 的虚拟画布代理协同工作,以合成图像的视觉内容。这个画布可以通过特定实现的图像生成器来渲染,从而实际产生图像。

目前,提供了3种基于 Llama3 和 Phi3 变体的预训练大语言模型:

  • omost-llama-3-8b
  • omost-dolphin-2.9-llama3-8b
  • omost-phi-3-mini-128k

所有模型均通过以下混合数据进行训练:(1) 包括 Open-Images 在内的几个数据集的真实标注;(2) 自动图像标注提取的数据;(3) 直接偏好优化(Direct Preference Optimization,DPO)的强化,即代码是否能够被 Python 3.10 编译作为直接偏好;以及 (4) 来自 OpenAI GPT4o 多模态能力的少量调整数据。

0

评论0

没有账号?注册  忘记密码?