Liquid AI 发布 LFM2.5-VL-450M:边缘端的结构化视觉智能新标杆

Liquid AI 今日正式发布了 LFM2.5-VL-450M,这是其前代模型 LFM2-VL-450M 的重大升级版。作为一款紧凑的多模态大语言模型(VLM),LFM2.5-VL-450M 在保持极小体积(4.5亿参数)的同时,显著增强了接地能力(Grounding)指令遵循以及函数调用支持。

  • 官方介绍:https://www.liquid.ai/blog/lfm2-5-vl-450m
  • 模型:https://huggingface.co/LiquidAI/LFM2.5-VL-450M
  • Demo:https://playground.liquid.ai/chat?model=lfm2.5-vl-450m

其核心突破在于:能够实时将图像流转化为结构化的、可操作的输出,即使在算力受限的边缘硬件(如 Jetson Orin、智能手机 SoC)上也能流畅运行,实现了从“看懂图片”到“理解场景并执行动作”的跨越。

Liquid AI 发布 LFM2.5-VL-450M:边缘端的结构化视觉智能新标杆

核心升级:从感知到行动

与前代相比,LFM2.5-VL-450M 的预训练数据规模从 10T token 扩展至 28T token,并经过专门的偏好优化和强化学习后训练,带来了三大关键能力提升:

1. 边界框预测与接地能力

  • 从零到一:新增目标检测功能,模型不仅能识别物体,还能用边界框精准定位。
  • 性能飞跃:在 RefCOCO-M 基准测试中,得分从 0 飙升至 81.28,证明了其强大的视觉定位能力。

2. 多语言图像理解增强

  • 全球部署就绪:支持阿拉伯语、中文、法语、德语、日语、韩语、葡萄牙语、西班牙语等八种语言。
  • 准确率提升:在 MMMB 基准测试中,平均分从 54.29 提升至 68.09,无需额外的语言本地化模型即可处理全球用户的视觉查询。

3. 指令遵循与可控性

  • 更听话的模型:对显式约束和用户指令的响应更加灵敏。
  • 显著提升:在 MM-IFEval 基准测试中,得分从 32.93 提升至 45.00,大幅提高了文本和视觉输入的可控性。
  • 函数调用支持:新增对文本函数调用的支持(BFCLv4 得分 21.08),使其能更好地与外部工具集成。
Liquid AI 发布 LFM2.5-VL-450M:边缘端的结构化视觉智能新标杆

基准测试表现

LFM2.5-VL-450M 在多项核心视觉和语言基准上均优于前代及同量级竞品(如 SmolVLM2-500M):

基准测试LFM2.5-VL-450MLFM2-VL-450MSmolVLM2-500M
视觉理解
MMStar43.0040.8738.20
RealWorldQA58.4352.0349.90
MMBench (dev en)60.9156.2752.32
POPE (幻觉评估)86.9383.7982.67
接地与定位
RefCOCO-M81.28--
指令遵循
MM-IFEval45.0033.0911.27
MMMB (多语言)68.0954.2946.79
语言推理
IFEval61.1651.7530.14
BFCLv4 (函数调用)21.08--

边缘性能:为实时应用而生

LFM2.5-VL-450M 专为低延迟、低功耗场景设计。在量化版本(Q4_0)下,它在多种边缘设备上均能实现实时或近实时推理:

分辨率NVIDIA Jetson OrinSamsung S25 Ultra (Snapdragon 8 Elite)AMD Ryzen AI Max+ 395
256×256233 ms950 ms637 ms
512×512242 ms2.4 s944 ms
  • Jetson Orin 表现亮眼:在处理 512×512 图像时仅需 242 毫秒,足以支持 4 FPS 的视频流逐帧分析,提供完整的视觉-语言理解,而不仅仅是简单的对象检测。
  • 移动端可用性:在旗舰手机芯片上,低分辨率下的推理速度控制在 1 秒以内,确保了交互的流畅性。

真实世界应用场景

LFM2.5-VL-450M 的特性使其成为以下领域的理想选择:

1. 工业自动化与边缘计算

  • 场景理解:在仓库、农场或工厂中,不仅检测物体,还能理解语义关系(如“工人正在操作叉车”、“库存流动方向”)。
  • 硬件友好:直接运行在现有的边缘硬件(如 Jetson Orin)上,无需昂贵的云端算力。

2. 可穿戴设备与隐私敏感监控

  • 设备端处理:智能眼镜、行车记录仪、随身助手等设备受限于功耗和隐私,无法持续上传视频云。
  • 结构化输出:本地生成紧凑的语义描述(如“检测到前方障碍物”、“用户正在阅读书籍”),保护隐私同时降低带宽需求。

3. 零售与电子商务

  • 高吞吐量处理:面对数百万张产品图、货架合规检查、视觉搜索任务,LFM2.5-VL-450M 能以极低的成本提供丰富的语义标签。
  • 自动化目录管理:自动提取产品属性、颜色、款式等信息,加速上架流程。
© 版权声明

相关文章

暂无评论

none
暂无评论...