Nexa AI 推出迷你视觉语言模型 OmniVision-968M

多模态模型2个月前更新小马良

408 0

Nexa AI 最新发布了 OmniVision-968M，这是一款专为边缘设备设计的视觉语言模型，它通过技术创新，将图像标记数量大幅减少，显著降低了延迟和计算负担，还提升了处理速度，为边缘计算领域带来了革新。

模型：https://huggingface.co/NexaAIDev/omnivision-968M
Demo：https://huggingface.co/spaces/NexaAIDev/omnivlm-dpo-demo

关键架构解析

基础语言模型：Qwen2.5-0.5B-Instruct，负责处理文本输入。
视觉编码器：SigLIP-400M，具有384分辨率和14×14的补丁大小，生成图像嵌入。
投影层：多层感知器（MLP），将视觉编码器的嵌入与语言模型的标记空间对齐，实现图像标记数量减少9倍。

技术亮点

图像标记减少：通过将图像标记数量大幅削减，OmniVision-968M 实现了处理速度的显著提升和计算资源的有效节省。
直接偏好优化（DPO）训练：利用先进的训练方法来提高模型的准确性和可靠性，减少幻觉现象的发生。
高效的数据源利用：确保模型训练基于高质量的数据，进一步提升了模型的表现。

应用前景

OmniVision-968M 的发布标志着几个方面的显著进步。首先，推理所需的计算资源大幅减少，这对于网络受限环境中的VLM实施尤为重要。DPO训练策略有助于最小化幻觉问题，确保模型既高效又可靠。初步基准测试显示，OmniVision-968M 在推理时间上减少了35%，同时在视觉问题回答和图像字幕等任务中保持了甚至提高了准确性。这些进步预计将推动医疗保健、智慧城市和汽车等行业的AI应用。

结语

Nexa AI 的 OmniVision-968M 解决了人工智能行业长期以来的需求：一个能够在边缘设备上无缝运行的、高度高效的视觉语言模型。通过减少图像标记、优化 LLaVA 的架构，并引入 DPO 训练以确保可信赖的输出，OmniVision-968M 代表了边缘AI的新前沿。这个模型让我们更接近于实现普遍AI的愿景——智能、连接的设备可以在本地执行复杂的多模态任务，而无需持续的云支持。