AUI

2个月前发布 49 00

AUI推出的新型基础模型 Apollo-1,基于一种名为 有状态神经符号推理(Stateful Neurosymbolic Reasoning) 的混合架构,在多个任务导向基准测试中实现了超过90%的任务完成率,远超当前主流模型。

所在地:
美国
收录时间:
2025-10-09

多年来,AI 助理一直承诺能“替你做事”,而不仅仅是“陪你聊天”。但现实是,即便最先进的大模型,在执行真实世界任务时仍频繁出错——订错航班、漏掉退款验证、误解业务规则……失败率高达近一半。

这背后的核心问题不是模型不够聪明,而是缺乏行为确定性

总部位于纽约的初创公司 AUI(Augmented User Intelligence) 声称找到了答案。他们推出的新型基础模型 Apollo-1,基于一种名为 有状态神经符号推理(Stateful Neurosymbolic Reasoning) 的混合架构,在多个任务导向基准测试中实现了超过90%的任务完成率,远超当前主流模型。

AUI

如果这一成果可复现且具备扩展性,它可能标志着企业级 AI 代理从“尽力而为”走向“可靠执行”的关键转折。

当前 AI 代理的瓶颈:为什么它们总在关键时刻掉链子?

尽管 LLM 在对话、写作和编码方面表现出色,但在需要精确操作的任务中表现不佳:

  • 在 Terminal-Bench Hard 上,顶级模型平均得分仅处于第30百分位;
  • 在 TAU-Bench Airline(模拟用户预订航班)中,Claude 3.7 Sonnet 的通过率仅为 56%
  • Google 自研的 Gemini 聊天助手 Rufus 在亚马逊购物任务中完成率仅 17%

这些数字意味着:每两次任务中就有一到两次失败。对企业而言,这种不可靠性无法接受。

AUI 联合创始人 Ohad Elhelo 指出:“开放式对话由 LLM 处理得很好,但任务导向对话不同——它有一个明确目标,必须以确定性方式完成。”

“可能做对” 和 “总是做对”,这是两个完全不同的世界。

Apollo-1 的核心:从“生成文本”到“执行动作”

Apollo-1 并非另一个大型语言模型,而是一个专为任务执行设计的基础系统。它的目标不是生成最像人的回复,而是确保每次交互都符合预设规则并最终达成目标。

AUI

其核心技术是 神经符号混合架构——一种连 Gary Marcus 等 LLM 批评者也长期倡导的方向。

🔧 架构组成

组件功能
神经层理解自然语言输入,提取意图与实体
符号层定义结构化状态、流程规则和约束条件
推理引擎在符号状态下进行确定性决策,而非概率预测

整个系统运行在一个闭环中:

  1. 编码器:将用户输入转为结构化符号状态;
  2. 状态机:维护当前任务上下文;
  3. 决策引擎:根据规则选择下一步动作;
  4. 规划器:调用工具或API执行;
  5. 解码器:将结果转化为自然语言反馈。

这个过程不断迭代,直到任务完成。

“Transformer 预测下一个 token,Apollo-1 预测下一个 action。” —— Ori Cohen,AUI 联合创始人

确定性:让 AI 遵守“行为合同”

传统 LLM 的问题是:即使你反复强调“必须先验证身份再处理大额退款”,它仍然可能跳过步骤。

Apollo-1 不同。它通过 系统提示(System Prompt) 接收一套形式化的“行为合同”——这不是配置文件,而是强制执行的业务逻辑。

例如:

  • 银行场景:“所有超过 $200 的退款请求必须触发双因素认证”;
  • 航空公司:“始终优先推荐商务舱升级选项”;
  • 外卖平台:“若用户提及过敏原,必须通知餐厅”。

这些规则被编码为符号槽(intent, parameter, policy),并在运行时严格遵守。
这意味着:只要规则定义清楚,行为就是可预测、可审计、可合规的

实测表现:任务完成率提升一个数量级

根据 AUI 提供的基准数据,Apollo-1 在多个真实场景中表现显著优于现有模型:

测试场景Apollo-1对比模型
TAU-Bench Airline(航班预订)92.5% 通过率Claude: 56%
Google Flights 实时预订83% 成功率Gemini Flash: 22%
亚马逊零售任务91% 完成率Rufus: 17%

在内部评估中,Apollo-1 的任务失败率不足10%,而主流模型普遍高于40%。

Cohen 表示:“这不是渐进改进,而是可靠性的数量级跃升。”

八年沉淀:从人类代理对话中提炼通用模式

AUI 的技术积累始于2017年。当时团队开始系统性地分析数百万条由 6万人类客服代理 处理的真实任务导向对话。

这项工作催生了一套符号语言系统,能够将业务流程中的“程序性知识”(如步骤、约束、状态转移)与“描述性知识”(如实体、属性)分离。

关键洞察是:

不同行业的任务对话具有相似的结构模式——无论是理赔处理、订单修改还是服务升级,都可以抽象为统一的状态机模型。

基于此,AUI 构建了专用的神经符号推理器,不再依赖 token-by-token 的生成猜测,而是通过状态驱动的方式决定下一步行动。

定位清晰:不替代 LLM,而是补全拼图

AUI 明确表示,Apollo-1 不是 LLM 的替代品,而是其必要补充。

Elhelo 总结道:

“Transformer 擅长创造性概率,Apollo-1 擅长行为确定性。两者共同构成完整对话 AI 的谱系。”

简单来说:

  • 用 LLM 做开放问答、内容创作;
  • 用 Apollo-1 做任务执行、流程自动化。

这也解释了为何 AUI 已与 Google 建立战略合作伙伴关系——Apollo-1 可作为底层代理引擎,接入现有聊天界面或工作流系统。

当前进展与未来路线

目前,Apollo-1 正在金融、旅行和零售领域的多家未公开的财富500强企业中进行有限试点。

公司确认将于 2025年11月 开放通用 API,届时将提供:

  • 完整文档
  • SDK 支持
  • 语音与图像输入能力

在此之前,潜在客户可通过官网表单注册获取信息。团队保持低调,但暗示“即将公布一项重要消息”。

数据统计

相关导航

暂无评论

none
暂无评论...