在大模型“军备竞赛”愈演愈烈的今天,参数规模是否仍是衡量能力的唯一标准?
Liquid AI 最新推出的 LFM2-2.6B 给出了一个有力的回答:
更优的架构设计,可以让更小的模型,在关键任务上超越更大对手。
作为其 Liquid Foundation Model 2 系列中目前最大的成员,LFM2-2.6B 仅含 26亿参数,却在多项基准测试中超越了参数更多的主流模型,包括 Llama 3.2-3B-Instruct、Gemma-3-4b-it 和 SmolLM3-3B。
这不仅是一次性能提升,更是对“效率优先”路线的又一次验证。

小模型,为何能有大表现?
LFM2 系列自 350M 起步,逐步扩展至 700M、1.2B,再到如今的 2.6B。每一步都坚持一个理念:
不靠堆参数,而是通过架构创新与训练优化,最大化单位参数的计算效益。
LFM2-2.6B 在 1万亿token 的高质量语料上完成训练,展现出卓越的推理与指令遵循能力:
| 任务 | 指标 | 成绩 |
|---|---|---|
| GSM8K(数学推理) | 准确率 | 82.41% |
| IFEval(指令遵循) | 正确率 | 79.56% |
这一表现已接近甚至超过部分7B级别以下的主流闭源与开源模型,尤其在数学与逻辑类任务中优势明显。
多语言支持:专注英语与日语,兼顾全球通用性
虽然参数规模有限,但 LFM2-2.6B 并未牺牲语言广度。
模型在训练中特别强化了 英语与日语 的理解与生成能力,适用于双语内容场景及日本市场应用。
同时,在以下语言上也保持了强劲表现:
- 法语、西班牙语、德语、意大利语、葡萄牙语(欧洲主要语言)
- 阿拉伯语、汉语、韩语(关键非拉丁语系)
使其成为一款真正可用于国际部署的通用型中小规模语言模型。
架构创新:混合结构带来速度与成本双重优势
LFM2-2.6B 的核心竞争力,来自于其独特的 混合神经网络架构。
它在 Transformer 层中交替使用两种组件:
- 分组查询注意力(Grouped Query Attention, GQA)
- 显著降低 KV 缓存占用
- 提升长序列推理效率
- 支持更高并发请求
- 短卷积层(Short Convolution Layers)
- 增强局部上下文建模能力
- 补充自注意力在短距依赖上的不足
- 减少对深层堆叠的依赖
这种“注意力+卷积”的混合设计,在保证建模能力的同时,大幅提升了推理速度并降低了内存开销。
实际部署中表现为:
- 更快的响应延迟
- 更低的服务成本
- 更易在边缘设备或私有化环境中运行
效率之路:为什么“小而强”越来越重要?
尽管千亿级模型仍在吸引眼球,但在真实应用场景中,企业更关心的是:
- 推理成本是否可控?
- 延迟能否满足交互需求?
- 是否能在自有基础设施上稳定运行?
LFM2-2.6B 正是为此而生。它证明:
卓越性能不必以巨大算力为代价。
通过正确的架构选择与训练策略,2.6B 级别的模型完全可以胜任复杂任务,且在性价比上远超“大而不精”的方案。















