Hugging Face发布号称同类最小的多模态模型SmolVLM系列

Hugging Face团队最近发布了两款名为SmolVLM-256M和SmolVLM-500M的新模型,它们被宣称为能够分析图像、短视频以及文本的最小AI模型。这两款模型特别设计用于在资源受限的设备上运行,比如内存不足1GB的笔记本电脑,并且非常适合那些寻求以极低成本处理大量数据的开发者。

模型参数与能力

  • SmolVLM-256M  SmolVLM-500M 分别拥有2.56亿和5亿个参数,这些参数大致反映了模型解决问题的能力。
  • 这些模型可以执行多种任务,包括描述图像或视频片段,回答有关PDF及其内容(包括扫描文本和图表)的问题等。

训练数据集

为了训练这两个模型,Hugging Face团队使用了两个专门创建的数据集:

  • The Cauldron:包含50个高质量的图像和文本数据集。
  • Docmatix:一组文件扫描及其详细描述。 这两个数据集均由Hugging Face的M4团队开发,该团队专注于多模态AI技术的研究和发展。

性能表现

尽管规模较小,但SmolVLM-256M和SmolVLM-500M在多个基准测试中表现出色,尤其是在AI2D测试中,评估了模型分析小学科学图表的能力,它们的表现甚至超过了更大的Idefics 80B模型。这表明即使在资源有限的情况下,小型模型也能提供强大的性能。

使用与许可

这两个模型可通过Hugging Face网站获取,并采用Apache 2.0许可证,这意味着用户可以自由地使用这些模型而无需担心版权问题。

0

评论0

没有账号?注册  忘记密码?