Hugging Face发布号称同类最小的多模态模型SmolVLM系列

129 0

Hugging Face团队最近发布了两款名为SmolVLM-256M和SmolVLM-500M的新模型，它们被宣称为能够分析图像、短视频以及文本的最小AI模型。这两款模型特别设计用于在资源受限的设备上运行，比如内存不足1GB的笔记本电脑，并且非常适合那些寻求以极低成本处理大量数据的开发者。

模型：https://huggingface.co/collections/HuggingFaceTB/smolvlm-256m-and-500m-6791fafc5bb0ab8acc960fb0
Demo：SmolVLM-256M和SmolVLM-500M

模型参数与能力

SmolVLM-256M 和 SmolVLM-500M 分别拥有2.56亿和5亿个参数，这些参数大致反映了模型解决问题的能力。
这些模型可以执行多种任务，包括描述图像或视频片段，回答有关PDF及其内容（包括扫描文本和图表）的问题等。

训练数据集

为了训练这两个模型，Hugging Face团队使用了两个专门创建的数据集：

The Cauldron：包含50个高质量的图像和文本数据集。
Docmatix：一组文件扫描及其详细描述。这两个数据集均由Hugging Face的M4团队开发，该团队专注于多模态AI技术的研究和发展。

性能表现

尽管规模较小，但SmolVLM-256M和SmolVLM-500M在多个基准测试中表现出色，尤其是在AI2D测试中，评估了模型分析小学科学图表的能力，它们的表现甚至超过了更大的Idefics 80B模型。这表明即使在资源有限的情况下，小型模型也能提供强大的性能。

使用与许可

这两个模型可通过Hugging Face网站获取，并采用Apache 2.0许可证，这意味着用户可以自由地使用这些模型而无需担心版权问题。

文章版权归作者所有，未经允许请勿转载。

阿里通义实验室开源R1-Omni：用强化学习解锁全模态大模型的新潜力

多模态模型 # R1-Omni # 全模态大模型 # 强化学习

1个月前

0630

开源视觉语言模型Moondream：将强大的图像理解能力与极小的资源占用完美结合

多模态模型 # Moondream # 视觉语言模型

2个月前

01590

面壁智能推出开源多模态大语言模型MiniCPM-V 2.6：可以在手机上运行与GPT-4V水平相当的任务

多模态模型 # MiniCPM-V 2.6 # 面壁智能

2个月前

03700

Hugging Face发布一个用于设备上推理的2B参数小型多模态模型SmolVLM

多模态模型 # Hugging Face # SmolVLM # 多模态模型

2个月前

01650

暂无评论

暂无评论...

Hugging Face发布号称同类最小的多模态模型SmolVLM系列

模型参数与能力

训练数据集

性能表现

使用与许可

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

新型多模态基础模型VideoLLaMA 3：提升图像和视频理解的性能

相关文章

阿里通义实验室开源R1-Omni：用强化学习解锁全模态大模型的新潜力

开源视觉语言模型Moondream：将强大的图像理解能力与极小的资源占用完美结合

面壁智能推出开源多模态大语言模型MiniCPM-V 2.6：可以在手机上运行与GPT-4V水平相当的任务

Hugging Face发布一个用于设备上推理的2B参数小型多模态模型SmolVLM

暂无评论

文章

英伟达开源ConsiStory：免训练保持角色和物品一致性的文生图方法

阿里推出高保真图像到视频生成框架AtomoVideo

Jina AI推出新型文本嵌入模型 jina-embeddings-v3：专为多语言数据和长文本检索任务优化

基于ComfyUI的ComfyGen：用于文本到图像生成的提示自适应工作流

图像处理方法RF-Inversion：可以对真实世界的图片进行风格转换和编辑

ComfyUI-Fluxtapoz：RF-Inversion的官方ComfyUI插件，对图片进行风格转换和编辑

Google AI Studio

Hugging Face发布号称同类最小的多模态模型SmolVLM系列

模型参数与能力

训练数据集

性能表现

使用与许可

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

新型多模态基础模型VideoLLaMA 3：提升图像和视频理解的性能

相关文章

文章

标签云

网址

Google AI Studio