在大模型普遍走向百亿、千亿参数的今天,腾讯优图实验室推出了一款仅 1.96B 参数的轻量级语言模型——Youtu-LLM。它不追求规模堆砌,而是以 STEM 能力与原生智能体(Agentic)能力为核心,在多项权威基准测试中超越更大规模的竞品,甚至在部分任务上击败 8B 级别模型。
更重要的是,Youtu-LLM 专为端侧部署设计,支持 128K 长上下文,可运行于消费级设备,为本地 AI 应用(如桌面助手、自动化代理)提供高性能、低延迟、高隐私的推理能力。

为什么 Youtu-LLM 能“以小博大”?
1. 以 STEM 与智能体能力为设计原点
不同于通用预训练路线,Youtu-LLM 从词表构建、数据配比到训练课程,均围绕 科学、技术、工程、数学(STEM) 与 智能体任务执行 进行优化。这使其在代码生成、数学推理、工具调用等关键场景表现突出。
2. 原生智能体训练(Agentic Mid-training)
模型在 128K 上下文长度下进行原生训练,并引入智能体中期训练策略,使其具备多轮交互、状态记忆与工具协调能力——这是实现“端侧智能体”的关键。
3. 采用 MLA 架构,性能超越传统范式
Youtu-LLM 基于 dense MLA(Multi-head Latent Attention)架构,在轻量级模型中实现 SOTA(State-of-the-Art)性能,显著优于传统的 GQA/MHA 结构。同时,MLA 架构天然兼容 DSV3 生态,便于集成到现有推理框架。
性能实测:全面超越同规模,逼近甚至超越更大模型
▶ 基础模型(Base)对比(vs Qwen3-1.7B、Llama3.1-8B 等)
| 任务类别 | 指标 | Youtu-LLM-2B-Base | Llama3.1-8B | Qwen3-4B-Base |
|---|---|---|---|---|
| 常识推理 | MMLU-Pro (EM) | 48.4% | 36.2% | 46.1% |
| 中文问答 | MLQA-Zh (EM) | 43.5% | 43.0% | 47.2% |
| 数学推理 | GSM8K (EM) | 77.6% | 47.8% | 80.8% |
| 代码生成 | HumanEval+ (Pass@1) | 57.3% | 28.1% | 49.9% |
| 长上下文 | NIAH (准确率) | 98.8% | 99.8% | 83.0% |
在 GSM8K 数学题、HumanEval+ 代码测试中,Youtu-LLM 以不到 2B 参数,大幅领先 8B 的 Llama3.1,接近 4B 的 Qwen3。
▶ 指令微调模型(Instruct)表现
| 任务 | Youtu-LLM-2B | Qwen3-4B | Llama3.1-8B |
|---|---|---|---|
| 综合知识 | MMLU-Pro: 61.6% | 69.1% | 57.5% |
| 指令遵循 | IFEval: 81.2% | 83.6% | 34.6% |
| 阅读理解 | DROP: 86.7% | 82.9% | 73.1% |
| 高级数学 | AIME 24: 65.4% | 73.3% | 52.5% |
| 代码能力 | HumanEval: 95.9% | 95.4% | 88.1% |
在 IFEval(指令遵循评估)中,Youtu-LLM 以 81.2% 超越 Llama3.1-8B(34.6%),接近 Qwen3-4B;在 DROP 阅读理解任务中甚至反超 Qwen3-4B。
▶ 智能体专项测试(APTBench / GAIA)
| 能力维度 | Youtu-LLM-2B | Qwen3-4B |
|---|---|---|
| 深度研究(GAIA) | 33.9% | 25.5% |
| 代码修复(SWE-Bench) | 17.7% | 5.7% |
| 工具调用(BFCL V3) | 58.0% | 61.7% |
| 环境控制(τ²-Bench) | 15.0% | 10.9% |
尤其在 SWE-Bench(真实 GitHub 代码修复) 中,Youtu-LLM 表现是 Qwen3-4B 的 3 倍以上,凸显其强大的端到端智能体执行能力。
技术细节与使用方式
- 参数量:1.96B
- 上下文长度:128K
- 架构:Dense MLA
- 开源状态:已开源(Hugging Face:
tencent/Youtu-LLM-2B) - 部署支持:Transformers、vLLM,Ollama 接入即将上线
快速加载示例:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("tencent/Youtu-LLM-2B", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
"tencent/Youtu-LLM-2B",
device_map="auto",
trust_remote_code=True
)
完整推理配置、思考模式开关、工具调用接口等详见项目 README。
适用场景
Youtu-LLM 特别适合以下端侧 AI 应用:
- 本地智能助手(如 Tip 桌面代理)
- 离线文档理解与摘要
- 自动化脚本生成与调试
- 嵌入式设备上的自然语言交互
- 隐私敏感场景下的 AI 推理(医疗、金融、企业内网)















