Liquid AI 发布 LFM2.5-VL-450M：边缘端的结构化视觉智能新标杆

Liquid AI 今日正式发布了 LFM2.5-VL-450M，这是其前代模型 LFM2-VL-450M 的重大升级版。作为一款紧凑的多模态大语言模型（VLM），LFM2.5-VL-450M 在保持极小体积（4.5亿参数）的同时，显著增强了接地能力（Grounding）、指令遵循以及函数调用支持。

官方介绍：https://www.liquid.ai/blog/lfm2-5-vl-450m
模型：https://huggingface.co/LiquidAI/LFM2.5-VL-450M
Demo：https://playground.liquid.ai/chat?model=lfm2.5-vl-450m

其核心突破在于：能够实时将图像流转化为结构化的、可操作的输出，即使在算力受限的边缘硬件（如 Jetson Orin、智能手机 SoC）上也能流畅运行，实现了从“看懂图片”到“理解场景并执行动作”的跨越。

Liquid AI 发布 LFM2.5-VL-450M：边缘端的结构化视觉智能新标杆

核心升级：从感知到行动

与前代相比，LFM2.5-VL-450M 的预训练数据规模从 10T token 扩展至 28T token，并经过专门的偏好优化和强化学习后训练，带来了三大关键能力提升：

1. 边界框预测与接地能力

从零到一：新增目标检测功能，模型不仅能识别物体，还能用边界框精准定位。
性能飞跃：在 RefCOCO-M 基准测试中，得分从 0 飙升至 81.28，证明了其强大的视觉定位能力。

2. 多语言图像理解增强

全球部署就绪：支持阿拉伯语、中文、法语、德语、日语、韩语、葡萄牙语、西班牙语等八种语言。
准确率提升：在 MMMB 基准测试中，平均分从 54.29 提升至 68.09，无需额外的语言本地化模型即可处理全球用户的视觉查询。

3. 指令遵循与可控性

更听话的模型：对显式约束和用户指令的响应更加灵敏。
显著提升：在 MM-IFEval 基准测试中，得分从 32.93 提升至 45.00，大幅提高了文本和视觉输入的可控性。
函数调用支持：新增对文本函数调用的支持（BFCLv4 得分 21.08），使其能更好地与外部工具集成。

基准测试表现

LFM2.5-VL-450M 在多项核心视觉和语言基准上均优于前代及同量级竞品（如 SmolVLM2-500M）：

基准测试	LFM2.5-VL-450M	LFM2-VL-450M	SmolVLM2-500M
视觉理解
MMStar	43.00	40.87	38.20
RealWorldQA	58.43	52.03	49.90
MMBench (dev en)	60.91	56.27	52.32
POPE (幻觉评估)	86.93	83.79	82.67
接地与定位
RefCOCO-M	81.28	-	-
指令遵循
MM-IFEval	45.00	33.09	11.27
MMMB (多语言)	68.09	54.29	46.79
语言推理
IFEval	61.16	51.75	30.14
BFCLv4 (函数调用)	21.08	-	-

边缘性能：为实时应用而生

LFM2.5-VL-450M 专为低延迟、低功耗场景设计。在量化版本（Q4_0）下，它在多种边缘设备上均能实现实时或近实时推理：

分辨率	NVIDIA Jetson Orin	Samsung S25 Ultra (Snapdragon 8 Elite)	AMD Ryzen AI Max+ 395
256×256	233 ms	950 ms	637 ms
512×512	242 ms	2.4 s	944 ms

Jetson Orin 表现亮眼：在处理 512×512 图像时仅需 242 毫秒，足以支持 4 FPS 的视频流逐帧分析，提供完整的视觉-语言理解，而不仅仅是简单的对象检测。
移动端可用性：在旗舰手机芯片上，低分辨率下的推理速度控制在 1 秒以内，确保了交互的流畅性。