AUI

5个月前发布 171 00

AUI推出的新型基础模型 Apollo-1，基于一种名为有状态神经符号推理（Stateful Neurosymbolic Reasoning）的混合架构，在多个任务导向基准测试中实现了超过90%的任务完成率，远超当前主流模型。

所在地：

美国

收录时间：

2025-10-09

打开网站手机查看

模型API # Apollo-1 # AUI

AUI

打开网站

多年来，AI 助理一直承诺能“替你做事”，而不仅仅是“陪你聊天”。但现实是，即便最先进的大模型，在执行真实世界任务时仍频繁出错——订错航班、漏掉退款验证、误解业务规则……失败率高达近一半。

这背后的核心问题不是模型不够聪明，而是缺乏行为确定性。

总部位于纽约的初创公司 AUI（Augmented User Intelligence） 声称找到了答案。他们推出的新型基础模型 Apollo-1，基于一种名为 有状态神经符号推理（Stateful Neurosymbolic Reasoning） 的混合架构，在多个任务导向基准测试中实现了超过90%的任务完成率，远超当前主流模型。

如果这一成果可复现且具备扩展性，它可能标志着企业级 AI 代理从“尽力而为”走向“可靠执行”的关键转折。

当前 AI 代理的瓶颈：为什么它们总在关键时刻掉链子？

尽管 LLM 在对话、写作和编码方面表现出色，但在需要精确操作的任务中表现不佳：

在 Terminal-Bench Hard 上，顶级模型平均得分仅处于第30百分位；
在 TAU-Bench Airline（模拟用户预订航班）中，Claude 3.7 Sonnet 的通过率仅为 56%；
Google 自研的 Gemini 聊天助手 Rufus 在亚马逊购物任务中完成率仅 17%。

这些数字意味着：每两次任务中就有一到两次失败。对企业而言，这种不可靠性无法接受。

AUI 联合创始人 Ohad Elhelo 指出：“开放式对话由 LLM 处理得很好，但任务导向对话不同——它有一个明确目标，必须以确定性方式完成。”

“可能做对” 和 “总是做对”，这是两个完全不同的世界。

Apollo-1 的核心：从“生成文本”到“执行动作”

Apollo-1 并非另一个大型语言模型，而是一个专为任务执行设计的基础系统。它的目标不是生成最像人的回复，而是确保每次交互都符合预设规则并最终达成目标。

其核心技术是 神经符号混合架构——一种连 Gary Marcus 等 LLM 批评者也长期倡导的方向。

🔧 架构组成

组件	功能
神经层	理解自然语言输入，提取意图与实体
符号层	定义结构化状态、流程规则和约束条件
推理引擎	在符号状态下进行确定性决策，而非概率预测

整个系统运行在一个闭环中：

编码器：将用户输入转为结构化符号状态；
状态机：维护当前任务上下文；
决策引擎：根据规则选择下一步动作；
规划器：调用工具或API执行；
解码器：将结果转化为自然语言反馈。

这个过程不断迭代，直到任务完成。

“Transformer 预测下一个 token，Apollo-1 预测下一个 action。” —— Ori Cohen，AUI 联合创始人

确定性：让 AI 遵守“行为合同”

传统 LLM 的问题是：即使你反复强调“必须先验证身份再处理大额退款”，它仍然可能跳过步骤。

Apollo-1 不同。它通过 系统提示（System Prompt） 接收一套形式化的“行为合同”——这不是配置文件，而是强制执行的业务逻辑。

例如：

银行场景：“所有超过 $200 的退款请求必须触发双因素认证”；
航空公司：“始终优先推荐商务舱升级选项”；
外卖平台：“若用户提及过敏原，必须通知餐厅”。

这些规则被编码为符号槽（intent, parameter, policy），并在运行时严格遵守。
这意味着：只要规则定义清楚，行为就是可预测、可审计、可合规的。

实测表现：任务完成率提升一个数量级

根据 AUI 提供的基准数据，Apollo-1 在多个真实场景中表现显著优于现有模型：

测试场景	Apollo-1	对比模型
TAU-Bench Airline（航班预订）	92.5% 通过率	Claude: 56%
Google Flights 实时预订	83% 成功率	Gemini Flash: 22%
亚马逊零售任务	91% 完成率	Rufus: 17%

在内部评估中，Apollo-1 的任务失败率不足10%，而主流模型普遍高于40%。

Cohen 表示：“这不是渐进改进，而是可靠性的数量级跃升。”

八年沉淀：从人类代理对话中提炼通用模式

AUI 的技术积累始于2017年。当时团队开始系统性地分析数百万条由 6万人类客服代理 处理的真实任务导向对话。

这项工作催生了一套符号语言系统，能够将业务流程中的“程序性知识”（如步骤、约束、状态转移）与“描述性知识”（如实体、属性）分离。

关键洞察是：

不同行业的任务对话具有相似的结构模式——无论是理赔处理、订单修改还是服务升级，都可以抽象为统一的状态机模型。

基于此，AUI 构建了专用的神经符号推理器，不再依赖 token-by-token 的生成猜测，而是通过状态驱动的方式决定下一步行动。

定位清晰：不替代 LLM，而是补全拼图

AUI 明确表示，Apollo-1 不是 LLM 的替代品，而是其必要补充。

Elhelo 总结道：

“Transformer 擅长创造性概率，Apollo-1 擅长行为确定性。两者共同构成完整对话 AI 的谱系。”

简单来说：

用 LLM 做开放问答、内容创作；
用 Apollo-1 做任务执行、流程自动化。

这也解释了为何 AUI 已与 Google 建立战略合作伙伴关系——Apollo-1 可作为底层代理引擎，接入现有聊天界面或工作流系统。

当前进展与未来路线

目前，Apollo-1 正在金融、旅行和零售领域的多家未公开的财富500强企业中进行有限试点。

公司确认将于 2025年11月 开放通用 API，届时将提供：

完整文档
SDK 支持
语音与图像输入能力

在此之前，潜在客户可通过官网表单注册获取信息。团队保持低调，但暗示“即将公布一项重要消息”。

数据统计

暂无评论

暂无评论...