Liquid AI 今日正式发布了 LFM2.5-VL-450M,这是其前代模型 LFM2-VL-450M 的重大升级版。作为一款紧凑的多模态大语言模型(VLM),LFM2.5-VL-450M 在保持极小体积(4.5亿参数)的同时,显著增强了接地能力(Grounding)、指令遵循以及函数调用支持。
- 官方介绍:https://www.liquid.ai/blog/lfm2-5-vl-450m
- 模型:https://huggingface.co/LiquidAI/LFM2.5-VL-450M
- Demo:https://playground.liquid.ai/chat?model=lfm2.5-vl-450m
其核心突破在于:能够实时将图像流转化为结构化的、可操作的输出,即使在算力受限的边缘硬件(如 Jetson Orin、智能手机 SoC)上也能流畅运行,实现了从“看懂图片”到“理解场景并执行动作”的跨越。

核心升级:从感知到行动
与前代相比,LFM2.5-VL-450M 的预训练数据规模从 10T token 扩展至 28T token,并经过专门的偏好优化和强化学习后训练,带来了三大关键能力提升:
1. 边界框预测与接地能力
- 从零到一:新增目标检测功能,模型不仅能识别物体,还能用边界框精准定位。
- 性能飞跃:在 RefCOCO-M 基准测试中,得分从 0 飙升至 81.28,证明了其强大的视觉定位能力。
2. 多语言图像理解增强
- 全球部署就绪:支持阿拉伯语、中文、法语、德语、日语、韩语、葡萄牙语、西班牙语等八种语言。
- 准确率提升:在 MMMB 基准测试中,平均分从 54.29 提升至 68.09,无需额外的语言本地化模型即可处理全球用户的视觉查询。
3. 指令遵循与可控性
- 更听话的模型:对显式约束和用户指令的响应更加灵敏。
- 显著提升:在 MM-IFEval 基准测试中,得分从 32.93 提升至 45.00,大幅提高了文本和视觉输入的可控性。
- 函数调用支持:新增对文本函数调用的支持(BFCLv4 得分 21.08),使其能更好地与外部工具集成。

基准测试表现
LFM2.5-VL-450M 在多项核心视觉和语言基准上均优于前代及同量级竞品(如 SmolVLM2-500M):
| 基准测试 | LFM2.5-VL-450M | LFM2-VL-450M | SmolVLM2-500M |
|---|---|---|---|
| 视觉理解 | |||
| MMStar | 43.00 | 40.87 | 38.20 |
| RealWorldQA | 58.43 | 52.03 | 49.90 |
| MMBench (dev en) | 60.91 | 56.27 | 52.32 |
| POPE (幻觉评估) | 86.93 | 83.79 | 82.67 |
| 接地与定位 | |||
| RefCOCO-M | 81.28 | - | - |
| 指令遵循 | |||
| MM-IFEval | 45.00 | 33.09 | 11.27 |
| MMMB (多语言) | 68.09 | 54.29 | 46.79 |
| 语言推理 | |||
| IFEval | 61.16 | 51.75 | 30.14 |
| BFCLv4 (函数调用) | 21.08 | - | - |
边缘性能:为实时应用而生
LFM2.5-VL-450M 专为低延迟、低功耗场景设计。在量化版本(Q4_0)下,它在多种边缘设备上均能实现实时或近实时推理:
| 分辨率 | NVIDIA Jetson Orin | Samsung S25 Ultra (Snapdragon 8 Elite) | AMD Ryzen AI Max+ 395 |
|---|---|---|---|
| 256×256 | 233 ms | 950 ms | 637 ms |
| 512×512 | 242 ms | 2.4 s | 944 ms |
- Jetson Orin 表现亮眼:在处理 512×512 图像时仅需 242 毫秒,足以支持 4 FPS 的视频流逐帧分析,提供完整的视觉-语言理解,而不仅仅是简单的对象检测。
- 移动端可用性:在旗舰手机芯片上,低分辨率下的推理速度控制在 1 秒以内,确保了交互的流畅性。
真实世界应用场景
LFM2.5-VL-450M 的特性使其成为以下领域的理想选择:
1. 工业自动化与边缘计算
- 场景理解:在仓库、农场或工厂中,不仅检测物体,还能理解语义关系(如“工人正在操作叉车”、“库存流动方向”)。
- 硬件友好:直接运行在现有的边缘硬件(如 Jetson Orin)上,无需昂贵的云端算力。
2. 可穿戴设备与隐私敏感监控
- 设备端处理:智能眼镜、行车记录仪、随身助手等设备受限于功耗和隐私,无法持续上传视频云。
- 结构化输出:本地生成紧凑的语义描述(如“检测到前方障碍物”、“用户正在阅读书籍”),保护隐私同时降低带宽需求。
3. 零售与电子商务
- 高吞吐量处理:面对数百万张产品图、货架合规检查、视觉搜索任务,LFM2.5-VL-450M 能以极低的成本提供丰富的语义标签。
- 自动化目录管理:自动提取产品属性、颜色、款式等信息,加速上架流程。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















