腾讯优图实验室推出 Youtu-LLM：持 128K 上下文、本地运行，专为端侧 AI 设计

37 0

在大模型普遍走向百亿、千亿参数的今天，腾讯优图实验室推出了一款仅 1.96B 参数的轻量级语言模型——Youtu-LLM。它不追求规模堆砌，而是以 STEM 能力与原生智能体（Agentic）能力为核心，在多项权威基准测试中超越更大规模的竞品，甚至在部分任务上击败 8B 级别模型。

模型：https://huggingface.co/collections/tencent/youtu

更重要的是，Youtu-LLM 专为端侧部署设计，支持 128K 长上下文，可运行于消费级设备，为本地 AI 应用（如桌面助手、自动化代理）提供高性能、低延迟、高隐私的推理能力。

腾讯优图实验室推出 Youtu-LLM：持 128K 上下文、本地运行，专为端侧 AI 设计

为什么 Youtu-LLM 能“以小博大”？

1. 以 STEM 与智能体能力为设计原点

不同于通用预训练路线，Youtu-LLM 从词表构建、数据配比到训练课程，均围绕 科学、技术、工程、数学（STEM） 与 智能体任务执行 进行优化。这使其在代码生成、数学推理、工具调用等关键场景表现突出。

2. 原生智能体训练（Agentic Mid-training）

模型在 128K 上下文长度下进行原生训练，并引入智能体中期训练策略，使其具备多轮交互、状态记忆与工具协调能力——这是实现“端侧智能体”的关键。

3. 采用 MLA 架构，性能超越传统范式

Youtu-LLM 基于 dense MLA（Multi-head Latent Attention）架构，在轻量级模型中实现 SOTA（State-of-the-Art）性能，显著优于传统的 GQA/MHA 结构。同时，MLA 架构天然兼容 DSV3 生态，便于集成到现有推理框架。

性能实测：全面超越同规模，逼近甚至超越更大模型

▶ 基础模型（Base）对比（vs Qwen3-1.7B、Llama3.1-8B 等）

任务类别	指标	Youtu-LLM-2B-Base	Llama3.1-8B	Qwen3-4B-Base
常识推理	MMLU-Pro (EM)	48.4%	36.2%	46.1%
中文问答	MLQA-Zh (EM)	43.5%	43.0%	47.2%
数学推理	GSM8K (EM)	77.6%	47.8%	80.8%
代码生成	HumanEval+ (Pass@1)	57.3%	28.1%	49.9%
长上下文	NIAH (准确率)	98.8%	99.8%	83.0%

在 GSM8K 数学题、HumanEval+ 代码测试中，Youtu-LLM 以不到 2B 参数，大幅领先 8B 的 Llama3.1，接近 4B 的 Qwen3。

▶ 指令微调模型（Instruct）表现

任务	Youtu-LLM-2B	Qwen3-4B	Llama3.1-8B
综合知识	MMLU-Pro: 61.6%	69.1%	57.5%
指令遵循	IFEval: 81.2%	83.6%	34.6%
阅读理解	DROP: 86.7%	82.9%	73.1%
高级数学	AIME 24: 65.4%	73.3%	52.5%
代码能力	HumanEval: 95.9%	95.4%	88.1%

在 IFEval（指令遵循评估）中，Youtu-LLM 以 81.2% 超越 Llama3.1-8B（34.6%），接近 Qwen3-4B；在 DROP 阅读理解任务中甚至反超 Qwen3-4B。

▶ 智能体专项测试（APTBench / GAIA）

能力维度	Youtu-LLM-2B	Qwen3-4B
深度研究（GAIA）	33.9%	25.5%
代码修复（SWE-Bench）	17.7%	5.7%
工具调用（BFCL V3）	58.0%	61.7%
环境控制（τ²-Bench）	15.0%	10.9%

尤其在 SWE-Bench（真实 GitHub 代码修复） 中，Youtu-LLM 表现是 Qwen3-4B 的 3 倍以上，凸显其强大的端到端智能体执行能力。

技术细节与使用方式

参数量：1.96B
上下文长度：128K
架构：Dense MLA
开源状态：已开源（Hugging Face: tencent/Youtu-LLM-2B）
部署支持：Transformers、vLLM，Ollama 接入即将上线

快速加载示例：

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("tencent/Youtu-LLM-2B", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "tencent/Youtu-LLM-2B",
    device_map="auto",
    trust_remote_code=True
)

完整推理配置、思考模式开关、工具调用接口等详见项目 README。