腾讯优图实验室推出 Youtu-LLM:持 128K 上下文、本地运行,专为端侧 AI 设计

在大模型普遍走向百亿、千亿参数的今天,腾讯优图实验室推出了一款仅 1.96B 参数的轻量级语言模型——Youtu-LLM。它不追求规模堆砌,而是以 STEM 能力与原生智能体(Agentic)能力为核心,在多项权威基准测试中超越更大规模的竞品,甚至在部分任务上击败 8B 级别模型。

更重要的是,Youtu-LLM 专为端侧部署设计,支持 128K 长上下文,可运行于消费级设备,为本地 AI 应用(如桌面助手、自动化代理)提供高性能、低延迟、高隐私的推理能力。

腾讯优图实验室推出 Youtu-LLM:持 128K 上下文、本地运行,专为端侧 AI 设计

为什么 Youtu-LLM 能“以小博大”?

1. 以 STEM 与智能体能力为设计原点

不同于通用预训练路线,Youtu-LLM 从词表构建、数据配比到训练课程,均围绕 科学、技术、工程、数学(STEM) 与 智能体任务执行 进行优化。这使其在代码生成、数学推理、工具调用等关键场景表现突出。

2. 原生智能体训练(Agentic Mid-training)

模型在 128K 上下文长度下进行原生训练,并引入智能体中期训练策略,使其具备多轮交互、状态记忆与工具协调能力——这是实现“端侧智能体”的关键。

3. 采用 MLA 架构,性能超越传统范式

Youtu-LLM 基于 dense MLA(Multi-head Latent Attention)架构,在轻量级模型中实现 SOTA(State-of-the-Art)性能,显著优于传统的 GQA/MHA 结构。同时,MLA 架构天然兼容 DSV3 生态,便于集成到现有推理框架。

性能实测:全面超越同规模,逼近甚至超越更大模型

▶ 基础模型(Base)对比(vs Qwen3-1.7B、Llama3.1-8B 等)

任务类别指标Youtu-LLM-2B-BaseLlama3.1-8BQwen3-4B-Base
常识推理MMLU-Pro (EM)48.4%36.2%46.1%
中文问答MLQA-Zh (EM)43.5%43.0%47.2%
数学推理GSM8K (EM)77.6%47.8%80.8%
代码生成HumanEval+ (Pass@1)57.3%28.1%49.9%
长上下文NIAH (准确率)98.8%99.8%83.0%

在 GSM8K 数学题、HumanEval+ 代码测试中,Youtu-LLM 以不到 2B 参数,大幅领先 8B 的 Llama3.1,接近 4B 的 Qwen3。

▶ 指令微调模型(Instruct)表现

任务Youtu-LLM-2BQwen3-4BLlama3.1-8B
综合知识MMLU-Pro: 61.6%69.1%57.5%
指令遵循IFEval: 81.2%83.6%34.6%
阅读理解DROP: 86.7%82.9%73.1%
高级数学AIME 24: 65.4%73.3%52.5%
代码能力HumanEval: 95.9%95.4%88.1%

在 IFEval(指令遵循评估)中,Youtu-LLM 以 81.2% 超越 Llama3.1-8B(34.6%),接近 Qwen3-4B;在 DROP 阅读理解任务中甚至反超 Qwen3-4B

▶ 智能体专项测试(APTBench / GAIA)

能力维度Youtu-LLM-2BQwen3-4B
深度研究(GAIA)33.9%25.5%
代码修复(SWE-Bench)17.7%5.7%
工具调用(BFCL V3)58.0%61.7%
环境控制(τ²-Bench)15.0%10.9%

尤其在 SWE-Bench(真实 GitHub 代码修复) 中,Youtu-LLM 表现是 Qwen3-4B 的 3 倍以上,凸显其强大的端到端智能体执行能力。

技术细节与使用方式

  • 参数量:1.96B
  • 上下文长度:128K
  • 架构:Dense MLA
  • 开源状态:已开源(Hugging Face: tencent/Youtu-LLM-2B
  • 部署支持:Transformers、vLLM,Ollama 接入即将上线

快速加载示例:

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("tencent/Youtu-LLM-2B", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "tencent/Youtu-LLM-2B",
    device_map="auto",
    trust_remote_code=True
)

完整推理配置、思考模式开关、工具调用接口等详见项目 README

适用场景

Youtu-LLM 特别适合以下端侧 AI 应用:

  • 本地智能助手(如 Tip 桌面代理)
  • 离线文档理解与摘要
  • 自动化脚本生成与调试
  • 嵌入式设备上的自然语言交互
  • 隐私敏感场景下的 AI 推理(医疗、金融、企业内网)
© 版权声明

相关文章

暂无评论

none
暂无评论...