NEO

8个月前发布 625 00

NEO不仅是一个 AutoML 工具，它还是第一个在真实竞赛环境中验证其能力的全自主机器学习工程师。它不会取代数据科学家，但会重新定义他们的角色：从“执行者”变为“指挥者”。当繁琐工作由 AI 承担，人类才能真正专注于创造。

所在地：

美国

收录时间：

2025-08-06

打开网站手机查看

智能体 # NEO # 机器学习工程代理

NEO

打开网站

今天，机器学习项目仍高度依赖专家团队：数据科学家清洗数据，工程师调试环境，研究员调参实验，运维人员部署模型——整个流程耗时数周甚至数月，且极易出错。

但这一模式正在被打破。

NEO ——一个全自主的机器学习工程代理（ML Engineering Agent）——已经能够独立完成从原始数据处理到模型部署的完整工作流。它不是自动化脚本，也不是低代码工具，而是一个真正意义上的 AI for AI（AI 驱动 AI 开发）系统。

在 MLEBench 基准测试中，NEO 参与了 75 场真实 Kaggle 竞赛，在三次独立运行中，于 34.2% 的比赛中获得奖牌，性能超越 RD-Agent、AIDE + OpenAI o1 等现有代理。

这意味着：一个 AI 代理，已具备接近顶尖人类 ML 工程师的能力。

为什么我们需要自主 ML 代理？

过去五十年，机器学习的进步建立在人类专家持续投入的基础上。但现实是，大多数 ML 项目仍困于以下瓶颈：

1. 数据混乱：从非结构化输入开始

日志、PDF、自由文本、图像混杂；
缺失值、格式不一致、时间戳错乱；
数据清洗常需数天甚至数周。

2. 特征工程：高度依赖经验与试错

手动编码分类变量、构建衍生特征；
处理类别不平衡、异常检测、分布偏移；
没有“标准答案”，全靠工程师直觉。

2. 模型实验：计算密集且重复

尝试多种模型（XGBoost、LightGBM、神经网络）；
超参数搜索耗费大量 GPU 资源；
实验记录分散在 Jupyter 笔记本或 Excel 表格中。

3. 环境脆弱：可复现性难题

PyTorch 与 CUDA 版本冲突；
pip/conda 依赖“地狱”；
“在我机器上能跑”仍是团队日常梗。

4. 部署与监控：脱离实验即失效

从 pickle.dump() 到 Docker + Kubernetes + CI/CD；
模型漂移、性能退化需人工干预；
生产环境中的故障往往深夜爆发。

这些“繁琐工作”消耗了 80% 以上的 ML 开发时间，却极少带来创新价值。

而 NEO 的目标，正是将人类从重复劳动中解放出来，专注于更高层次的问题定义与战略决策。

认识 NEO：全栈式自主 ML 工程师

NEO 是一个端到端自主代理，能够：

理解任务需求（如“构建语音识别模型”）
自动下载并清洗数据
执行探索性分析（EDA）
设计特征、选择模型、调参优化
训练、评估、部署模型
持续监控性能并响应漂移

它不仅执行任务，还能推理上下文、适应变化、从失败中恢复，并在必要时请求人类反馈。

“它不是一个工具，而是一位协作伙伴。”

工作机制：计划 → 编码 → 执行 → 调试

NEO 在隔离的 GPU/CPU 沙盒环境中运行，采用多阶段闭环流程：

规划（Plan）
分析任务目标，拆解为子任务（数据获取、预处理、建模等）
编码（Code）
生成 Python 脚本、配置文件、Dockerfile 等工件
执行（Execute）
在安全环境中运行代码，捕获输出与错误
调试（Debug）
分析失败原因，修正代码或调整策略

该循环持续迭代，直到达成目标或达到终止条件。

此外，NEO 支持 “人在回路”（Human-in-the-loop）模式：

用户可通过聊天界面提供指导：“优先考虑低延迟”、“使用 Whisper 模型”
查看生成的代码、数据可视化、模型指标
审核关键决策，确保可控性与透明度

界面还提供 工件查看器，可直接访问：

处理后的数据集
自动生成的训练脚本
训练日志与模型检查点

实战案例：NEO 如何解决真实问题？

✅ 临床语音转录：微调 Whisper 模型

任务：为医生口述记录构建高精度语音识别系统
NEO 行动：

下载 LibriSpeech 和医疗语音数据集
对 Whisper-small 进行领域适应微调
优化音频预处理 pipeline
实现词错误率（WER）显著下降

✅ 出行 ETA 预测：融合时空特征

任务：基于公开交通数据预测到达时间
NEO 行动：

整合 GPS 轨迹、天气、节假日数据
构建时空图神经网络（ST-GNN）变体
使用 Optuna 自动调参
输出 REST API 并集成到测试服务中

✅ 可穿戴设备睡眠分析：处理类别不平衡

任务：根据传感器数据预测睡眠阶段
NEO 行动：

下载公开 PSG 数据集
执行 EDA，发现 REM 阶段样本极少
应用 SMOTE 上采样 + 加权损失函数
设计轻量级 LSTM 模型，适合边缘部署

在每个案例中，NEO 均在无人干预下完成全流程，仅需初始任务描述。

性能验证：在真实竞赛中击败人类基线

为客观评估 NEO 的能力，研究团队采用 MLEBench ——一个基于真实世界任务的 ML 工程代理基准。

其核心特点是：

使用 75 个真实 Kaggle 竞赛作为测试用例，涵盖分类、回归、时间序列、NLP 等多种任务类型。

评估方式：

每个竞赛运行三次，取平均表现
以“是否获得奖牌”作为成功标准（Kaggle 奖牌代表前 10%-15% 排名）

结果：

代理	奖牌率
NEO	34.2%
RD-Agent	18.7%
AIDE + o1	22.1%

这意味着：NEO 在超过三分之一的真实 ML 竞赛中达到了顶尖水平。

值得注意的是，Kaggle 竞赛本身已是高难度挑战——参与者多为资深数据科学家，竞争激烈。NEO 的表现不仅证明其技术能力，更标志着 AI 自主开发 AI 的可行性已从理论走向实践。

它不是工具，而是伙伴

NEO 的意义不止于自动化。

它代表了一种新的工作范式：

人类定义问题，AI 解决问题。

你可以告诉它：

“帮我构建一个推荐系统”
“分析这份销售数据，找出增长机会”
“把我们的模型迁移到边缘设备”

然后，它就开始工作——像一位经验丰富的 ML 工程师那样思考、实验、优化。

你不再需要手动写数据清洗脚本，也不必熬夜调参。你只需要关注：问题是否被正确理解？结果是否符合业务目标？

控制权始终在你手中。

展望：AI 构建 AI 的未来

NEO 的出现，预示着机器学习开发方式的根本转变：

小型团队也能拥有“冠军级”建模能力
MLOps 流程可被完全自动化
AI 系统将能自我改进、自我部署、自我监控

未来，我们或许会看到：

NEO 主动发现数据漂移，并重新训练模型
它为新任务生成文档、测试用例和 API 文档
它与其他代理协作，构建复杂 AI 系统

这不仅是效率提升，更是智能密度的跃迁。

数据统计

暂无评论

暂无评论...