LIMI ：少即是多，78个样本如何训练出高效AI智能体

209 0

由上海交通大学、上海创智学院、香港理工大学、中国科学技术大学与GAIR联合开展的一项研究，最近提出了一个名为 LIMI 的新方法——全称为 Less is More for Intelligent Agency，即“智能体能力的关键在于精简而非海量数据”。

GitHub：https://github.com/GAIR-NLP/LIMI
模型：https://huggingface.co/GAIR/LIMI

这项研究挑战了当前主流AI训练中“数据越多越好”的默认假设，提出：真正的机器自主性，并不来自数据规模的堆砌，而是源于对高质量行为样本的战略性筛选与学习。

这一发现，正在重新定义我们构建“能做事”的AI系统的方式。

从“会说”到“会做”：AI需要的是行动力

近年来，大模型在语言理解与生成方面取得了显著进展。但多数模型仍停留在“思考型AI”阶段——它们擅长回答问题、撰写文本，却难以独立完成复杂任务。

而现实应用更需要的是“工作型AI”：能够主动发现问题、制定计划、调用工具并执行操作的智能代理（Agent）。

LIMI的目标正是推动AI从“被动响应”走向“主动作为”。它关注的核心能力包括：

自主识别问题
多步推理与规划
工具调用与协调
环境交互与反馈调整
协作沟通与任务闭环

这些能力构成了所谓“智能体性”（Agency），也是未来AI能否真正融入生产流程的关键。

LIMI的核心思想：质量胜过数量

LIMI最引人注目的突破，在于其极高的数据效率。

研究人员仅使用 78个高质量训练样本，就在多个任务上实现了远超现有大型模型的表现。相比之下，许多同类系统依赖数千甚至上万条数据进行训练。

这背后的理念很明确：

培养智能体的能力，不应靠盲目扩大数据集，而应聚焦于获取那些真正体现“完整任务执行过程”的优质行为轨迹。

为此，LIMI建立了三个关键技术环节：

1. 用户查询合成：让训练场景更真实

传统方法常依赖人工编写或模拟任务指令，容易脱离实际。LIMI则通过两种方式获取真实用户需求：

分析人类与AI协作的真实对话记录
利用GitHub上的拉取请求（Pull Request）信息，自动提取开发任务描述

这些来源于实际工作流的查询，确保了训练任务的真实性与挑战性。

2. 系统化轨迹收集：记录完整的“行动链条”

LIMI不仅关注最终结果，更重视AI解决问题的全过程。每一条训练样本都包含：

模型的推理步骤
工具调用序列（如代码编辑器、数据库接口等）
环境反馈（如运行错误、执行结果）
最终任务完成状态

这种端到端的行为轨迹，为模型提供了可模仿的“专家示范”。

3. 数据效率原则：以少胜多的训练策略

基于上述高质量轨迹，LIMI采用了一种“小而精”的训练范式：

不追求数据总量，而是精心策划每个样本的内容
覆盖多样化的任务类型与失败恢复场景
强调跨工具协同与动态调整能力

这种方法使得模型能够在极小的数据规模下，掌握复杂的任务执行逻辑。

实验结果：用1/128的数据，实现53.7%的性能提升

在标准评测平台 AgencyBench 上，LIMI的表现令人瞩目：

模型	性能得分
LIMI	73.5%
GLM-4.5	45.1%
Kimi-K2-Instruct	24.1%

这意味着，LIMI在任务成功率上大幅领先当前主流模型。

更关键的是，在数据效率方面的对比：

LIMI 使用：78个训练样本
对比模型使用：10,000个样本

尽管数据量仅为后者的 0.78%（约1/128），LIMI仍实现了 53.7%的相对性能提升。

此外，在泛化能力测试中，LIMI在多个未见任务上的平均表现为 57.2%，优于所有基线模型，显示出良好的迁移潜力。

应用前景：让AI真正进入工作流

LIMI的设计面向真实应用场景。例如：

软件开发：AI可主动检测代码缺陷，提出修复方案，并通过集成开发环境直接提交修改。
科研辅助：AI能设计实验流程、分析实验数据、撰写初步报告，协助研究人员加速探索。
运维自动化：面对系统异常，AI可定位问题根源、执行修复命令、验证修复效果，形成闭环处理。

这些不再是“如果我能……”的设想，而是LIMI所展示出的可行路径。

不是不要数据，而是要更有价值的数据

LIMI的意义，不只是一个高性能模型的诞生，更是对当前AI研发范式的反思。

我们过去习惯于用更大的数据、更强的算力去逼近智能。但LIMI证明：

当我们真正理解“什么是有效的智能行为”，并据此构造高质量训练样本时，可以用极少的资源，培育出更具行动力的AI。

这不仅是效率的胜利，也是一种更可持续的发展方向。

大语言模型 # LIMI # 智能体

文章版权归作者所有，未经允许请勿转载。

英伟达发布 Nemotron 3 Super：1200 亿参数 MoE 架构，智能体吞吐量飙升 5 倍

大语言模型 # NVIDIA Nemotron 3 Super # 英伟达

1周前

0120

Anthropic 智能体工具开发指南：从原型到优化，附 Claude 协作技巧

教程 # Anthropic # Claude Code # 智能体

6个月前

0930

Liquid AI 发布 LFM2：设备端最快的生成式基础模型

大语言模型 # LFM2 # Liquid AI

8个月前

02490

阿里Qwen团队推出强化学习增强的推理模型QwQ-32B

大语言模型 # Qwen # QwQ-32B # 强化学习

1年前

03300

暂无评论

暂无评论...

LIMI ：少即是多，78个样本如何训练出高效AI智能体

从“会说”到“会做”：AI需要的是行动力

LIMI的核心思想：质量胜过数量

1. 用户查询合成：让训练场景更真实

2. 系统化轨迹收集：记录完整的“行动链条”

3. 数据效率原则：以少胜多的训练策略

实验结果：用1/128的数据，实现53.7%的性能提升

应用前景：让AI真正进入工作流

不是不要数据，而是要更有价值的数据

美团 LongCat 团队发布 LongCat-Flash-Thinking：具备形式化与智能体推理能力的新一代高效推理模型

Qwen3Guard发布：阿里通义实验室推出首款安全护栏模型

相关文章

英伟达发布 Nemotron 3 Super：1200 亿参数 MoE 架构，智能体吞吐量飙升 5 倍

Anthropic 智能体工具开发指南：从原型到优化，附 Claude 协作技巧

Liquid AI 发布 LFM2：设备端最快的生成式基础模型

阿里Qwen团队推出强化学习增强的推理模型QwQ-32B

暂无评论

文章

DiT架构的文生视频模型xGen-VideoSyn-1：根据文本描述生成逼真的视频场景

用“Megakernel”打破LLM推理瓶颈：斯坦福Hazy Research实现Llama-1B史上最低延迟

Vivaldi CEO 强硬表态：坚决禁止浏览器集成生成式 AI，网页该由人类主导

针对姿势引导的人像图像动画技术TCAN：让图片中的人物根据某个动作序列（比如一个视频）来做出相应的动作

自适应投影引导APG：不牺牲图像质量的前提下，使用更高的指导尺度，从而生成更丰富、更真实的图像

Trae Agent 2.0大升级：能记住、会推理、更懂代码的AI来了

新悟空

Meshy

S.H.I.T

OpenMAIC

CutCut

ArkClaw

LIMI ：少即是多，78个样本如何训练出高效AI智能体

从“会说”到“会做”：AI需要的是行动力

LIMI的核心思想：质量胜过数量

1. 用户查询合成：让训练场景更真实

2. 系统化轨迹收集：记录完整的“行动链条”

3. 数据效率原则：以少胜多的训练策略

实验结果：用1/128的数据，实现53.7%的性能提升

应用前景：让AI真正进入工作流

不是不要数据，而是要更有价值的数据

美团 LongCat 团队发布 LongCat-Flash-Thinking：具备形式化与智能体推理能力的新一代高效推理模型

Qwen3Guard发布：阿里通义实验室推出首款安全护栏模型

相关文章

文章

标签云

网址

新悟空

Meshy

S.H.I.T

OpenMAIC

CutCut

ArkClaw