
多年来,AI 助理一直承诺能“替你做事”,而不仅仅是“陪你聊天”。但现实是,即便最先进的大模型,在执行真实世界任务时仍频繁出错——订错航班、漏掉退款验证、误解业务规则……失败率高达近一半。
这背后的核心问题不是模型不够聪明,而是缺乏行为确定性。
总部位于纽约的初创公司 AUI(Augmented User Intelligence) 声称找到了答案。他们推出的新型基础模型 Apollo-1,基于一种名为 有状态神经符号推理(Stateful Neurosymbolic Reasoning) 的混合架构,在多个任务导向基准测试中实现了超过90%的任务完成率,远超当前主流模型。

如果这一成果可复现且具备扩展性,它可能标志着企业级 AI 代理从“尽力而为”走向“可靠执行”的关键转折。
当前 AI 代理的瓶颈:为什么它们总在关键时刻掉链子?
尽管 LLM 在对话、写作和编码方面表现出色,但在需要精确操作的任务中表现不佳:
- 在 Terminal-Bench Hard 上,顶级模型平均得分仅处于第30百分位;
- 在 TAU-Bench Airline(模拟用户预订航班)中,Claude 3.7 Sonnet 的通过率仅为 56%;
- Google 自研的 Gemini 聊天助手 Rufus 在亚马逊购物任务中完成率仅 17%。
这些数字意味着:每两次任务中就有一到两次失败。对企业而言,这种不可靠性无法接受。
AUI 联合创始人 Ohad Elhelo 指出:“开放式对话由 LLM 处理得很好,但任务导向对话不同——它有一个明确目标,必须以确定性方式完成。”
“可能做对” 和 “总是做对”,这是两个完全不同的世界。
Apollo-1 的核心:从“生成文本”到“执行动作”
Apollo-1 并非另一个大型语言模型,而是一个专为任务执行设计的基础系统。它的目标不是生成最像人的回复,而是确保每次交互都符合预设规则并最终达成目标。

其核心技术是 神经符号混合架构——一种连 Gary Marcus 等 LLM 批评者也长期倡导的方向。
🔧 架构组成
| 组件 | 功能 |
|---|---|
| 神经层 | 理解自然语言输入,提取意图与实体 |
| 符号层 | 定义结构化状态、流程规则和约束条件 |
| 推理引擎 | 在符号状态下进行确定性决策,而非概率预测 |
整个系统运行在一个闭环中:
- 编码器:将用户输入转为结构化符号状态;
- 状态机:维护当前任务上下文;
- 决策引擎:根据规则选择下一步动作;
- 规划器:调用工具或API执行;
- 解码器:将结果转化为自然语言反馈。
这个过程不断迭代,直到任务完成。
“Transformer 预测下一个 token,Apollo-1 预测下一个 action。” —— Ori Cohen,AUI 联合创始人
确定性:让 AI 遵守“行为合同”
传统 LLM 的问题是:即使你反复强调“必须先验证身份再处理大额退款”,它仍然可能跳过步骤。
Apollo-1 不同。它通过 系统提示(System Prompt) 接收一套形式化的“行为合同”——这不是配置文件,而是强制执行的业务逻辑。
例如:
- 银行场景:“所有超过 $200 的退款请求必须触发双因素认证”;
- 航空公司:“始终优先推荐商务舱升级选项”;
- 外卖平台:“若用户提及过敏原,必须通知餐厅”。
这些规则被编码为符号槽(intent, parameter, policy),并在运行时严格遵守。
这意味着:只要规则定义清楚,行为就是可预测、可审计、可合规的。
实测表现:任务完成率提升一个数量级
根据 AUI 提供的基准数据,Apollo-1 在多个真实场景中表现显著优于现有模型:
| 测试场景 | Apollo-1 | 对比模型 |
|---|---|---|
| TAU-Bench Airline(航班预订) | 92.5% 通过率 | Claude: 56% |
| Google Flights 实时预订 | 83% 成功率 | Gemini Flash: 22% |
| 亚马逊零售任务 | 91% 完成率 | Rufus: 17% |
在内部评估中,Apollo-1 的任务失败率不足10%,而主流模型普遍高于40%。
Cohen 表示:“这不是渐进改进,而是可靠性的数量级跃升。”
八年沉淀:从人类代理对话中提炼通用模式
AUI 的技术积累始于2017年。当时团队开始系统性地分析数百万条由 6万人类客服代理 处理的真实任务导向对话。
这项工作催生了一套符号语言系统,能够将业务流程中的“程序性知识”(如步骤、约束、状态转移)与“描述性知识”(如实体、属性)分离。
关键洞察是:
不同行业的任务对话具有相似的结构模式——无论是理赔处理、订单修改还是服务升级,都可以抽象为统一的状态机模型。
基于此,AUI 构建了专用的神经符号推理器,不再依赖 token-by-token 的生成猜测,而是通过状态驱动的方式决定下一步行动。
定位清晰:不替代 LLM,而是补全拼图
AUI 明确表示,Apollo-1 不是 LLM 的替代品,而是其必要补充。
Elhelo 总结道:
“Transformer 擅长创造性概率,Apollo-1 擅长行为确定性。两者共同构成完整对话 AI 的谱系。”
简单来说:
- 用 LLM 做开放问答、内容创作;
- 用 Apollo-1 做任务执行、流程自动化。
这也解释了为何 AUI 已与 Google 建立战略合作伙伴关系——Apollo-1 可作为底层代理引擎,接入现有聊天界面或工作流系统。
当前进展与未来路线
目前,Apollo-1 正在金融、旅行和零售领域的多家未公开的财富500强企业中进行有限试点。
公司确认将于 2025年11月 开放通用 API,届时将提供:
- 完整文档
- SDK 支持
- 语音与图像输入能力
在此之前,潜在客户可通过官网表单注册获取信息。团队保持低调,但暗示“即将公布一项重要消息”。
数据统计
相关导航


Parallel

Novita

OpenRouter

Nous Research

AI21 Studio

Reflection AI






