
今天,机器学习项目仍高度依赖专家团队:数据科学家清洗数据,工程师调试环境,研究员调参实验,运维人员部署模型——整个流程耗时数周甚至数月,且极易出错。
但这一模式正在被打破。
NEO ——一个全自主的机器学习工程代理(ML Engineering Agent)——已经能够独立完成从原始数据处理到模型部署的完整工作流。它不是自动化脚本,也不是低代码工具,而是一个真正意义上的 AI for AI(AI 驱动 AI 开发)系统。

在 MLEBench 基准测试中,NEO 参与了 75 场真实 Kaggle 竞赛,在三次独立运行中,于 34.2% 的比赛中获得奖牌,性能超越 RD-Agent、AIDE + OpenAI o1 等现有代理。
这意味着:一个 AI 代理,已具备接近顶尖人类 ML 工程师的能力。
为什么我们需要自主 ML 代理?
过去五十年,机器学习的进步建立在人类专家持续投入的基础上。但现实是,大多数 ML 项目仍困于以下瓶颈:
1. 数据混乱:从非结构化输入开始
- 日志、PDF、自由文本、图像混杂;
- 缺失值、格式不一致、时间戳错乱;
- 数据清洗常需数天甚至数周。
2. 特征工程:高度依赖经验与试错
- 手动编码分类变量、构建衍生特征;
- 处理类别不平衡、异常检测、分布偏移;
- 没有“标准答案”,全靠工程师直觉。
2. 模型实验:计算密集且重复
- 尝试多种模型(XGBoost、LightGBM、神经网络);
- 超参数搜索耗费大量 GPU 资源;
- 实验记录分散在 Jupyter 笔记本或 Excel 表格中。
3. 环境脆弱:可复现性难题
- PyTorch 与 CUDA 版本冲突;
- pip/conda 依赖“地狱”;
- “在我机器上能跑”仍是团队日常梗。
4. 部署与监控:脱离实验即失效
- 从
pickle.dump()到 Docker + Kubernetes + CI/CD; - 模型漂移、性能退化需人工干预;
- 生产环境中的故障往往深夜爆发。
这些“繁琐工作”消耗了 80% 以上的 ML 开发时间,却极少带来创新价值。
而 NEO 的目标,正是将人类从重复劳动中解放出来,专注于更高层次的问题定义与战略决策。

认识 NEO:全栈式自主 ML 工程师
NEO 是一个端到端自主代理,能够:
- 理解任务需求(如“构建语音识别模型”)
- 自动下载并清洗数据
- 执行探索性分析(EDA)
- 设计特征、选择模型、调参优化
- 训练、评估、部署模型
- 持续监控性能并响应漂移
它不仅执行任务,还能推理上下文、适应变化、从失败中恢复,并在必要时请求人类反馈。
“它不是一个工具,而是一位协作伙伴。”
工作机制:计划 → 编码 → 执行 → 调试
NEO 在隔离的 GPU/CPU 沙盒环境中运行,采用多阶段闭环流程:
- 规划(Plan)
分析任务目标,拆解为子任务(数据获取、预处理、建模等) - 编码(Code)
生成 Python 脚本、配置文件、Dockerfile 等工件 - 执行(Execute)
在安全环境中运行代码,捕获输出与错误 - 调试(Debug)
分析失败原因,修正代码或调整策略
该循环持续迭代,直到达成目标或达到终止条件。

此外,NEO 支持 “人在回路”(Human-in-the-loop)模式:
- 用户可通过聊天界面提供指导:“优先考虑低延迟”、“使用 Whisper 模型”
- 查看生成的代码、数据可视化、模型指标
- 审核关键决策,确保可控性与透明度
界面还提供 工件查看器,可直接访问:
- 处理后的数据集
- 自动生成的训练脚本
- 训练日志与模型检查点
实战案例:NEO 如何解决真实问题?
✅ 临床语音转录:微调 Whisper 模型
任务:为医生口述记录构建高精度语音识别系统
NEO 行动:
- 下载 LibriSpeech 和医疗语音数据集
- 对 Whisper-small 进行领域适应微调
- 优化音频预处理 pipeline
- 实现词错误率(WER)显著下降
✅ 出行 ETA 预测:融合时空特征
任务:基于公开交通数据预测到达时间
NEO 行动:
- 整合 GPS 轨迹、天气、节假日数据
- 构建时空图神经网络(ST-GNN)变体
- 使用 Optuna 自动调参
- 输出 REST API 并集成到测试服务中
✅ 可穿戴设备睡眠分析:处理类别不平衡
任务:根据传感器数据预测睡眠阶段
NEO 行动:
- 下载公开 PSG 数据集
- 执行 EDA,发现 REM 阶段样本极少
- 应用 SMOTE 上采样 + 加权损失函数
- 设计轻量级 LSTM 模型,适合边缘部署
在每个案例中,NEO 均在无人干预下完成全流程,仅需初始任务描述。
性能验证:在真实竞赛中击败人类基线
为客观评估 NEO 的能力,研究团队采用 MLEBench ——一个基于真实世界任务的 ML 工程代理基准。
其核心特点是:
使用 75 个真实 Kaggle 竞赛作为测试用例,涵盖分类、回归、时间序列、NLP 等多种任务类型。
评估方式:
- 每个竞赛运行三次,取平均表现
- 以“是否获得奖牌”作为成功标准(Kaggle 奖牌代表前 10%-15% 排名)
结果:
| 代理 | 奖牌率 |
|---|---|
| NEO | 34.2% |
| RD-Agent | 18.7% |
| AIDE + o1 | 22.1% |
这意味着:NEO 在超过三分之一的真实 ML 竞赛中达到了顶尖水平。
值得注意的是,Kaggle 竞赛本身已是高难度挑战——参与者多为资深数据科学家,竞争激烈。NEO 的表现不仅证明其技术能力,更标志着 AI 自主开发 AI 的可行性已从理论走向实践。
它不是工具,而是伙伴
NEO 的意义不止于自动化。
它代表了一种新的工作范式:
人类定义问题,AI 解决问题。
你可以告诉它:
- “帮我构建一个推荐系统”
- “分析这份销售数据,找出增长机会”
- “把我们的模型迁移到边缘设备”
然后,它就开始工作——像一位经验丰富的 ML 工程师那样思考、实验、优化。
你不再需要手动写数据清洗脚本,也不必熬夜调参。你只需要关注:问题是否被正确理解?结果是否符合业务目标?
控制权始终在你手中。
展望:AI 构建 AI 的未来
NEO 的出现,预示着机器学习开发方式的根本转变:
- 小型团队也能拥有“冠军级”建模能力
- MLOps 流程可被完全自动化
- AI 系统将能自我改进、自我部署、自我监控
未来,我们或许会看到:
- NEO 主动发现数据漂移,并重新训练模型
- 它为新任务生成文档、测试用例和 API 文档
- 它与其他代理协作,构建复杂 AI 系统
这不仅是效率提升,更是智能密度的跃迁。
数据统计
相关导航


FinRobot

Agent S

LiveKit Agents

Context

AI Researcher

AGENTS.md






