在成立数月后,由前OpenAI首席技术官 Mira Murati 创立的AI初创公司 Thinking Machines Lab(思维机器实验室) 首次向公众揭开面纱。
这家被寄予厚望、估值高达120亿美元、并获得20亿美元种子轮融资的神秘企业,在周三发布了一篇名为《击败LLM推理中的非确定性(Defeating Nondeterminism in LLM Inference)》的研究博客——这也是其新研究系列“Connectionism”的开篇之作。
文章直指当前大语言模型(LLM)一个长期被忽视却影响深远的问题:
为什么同一个问题,问两次会得到不同的答案?
这个问题看似微小,实则关乎AI系统的可靠性、可调试性与训练效率。而该实验室认为:这不是不可避免的缺陷,而是可以被系统性解决的技术挑战。

问题本质:我们真的需要“随机”吗?
你可能已经习惯这样的体验:
- 向ChatGPT提问“解释量子纠缠”,第一次得到一段教科书式说明;
- 五分钟后重试,内容结构变了,甚至细节出现偏差。
这种现象被称为“推理非确定性”(Inference Non-determinism),长期以来被视为大模型运行的“正常特性”。但 Thinking Machines Lab 的研究员 Horace He 指出:
“这并非来自模型本身的决策逻辑,而是底层硬件执行过程中的副作用。”
换句话说,不是AI‘想’得不一样,是GPU‘算’得不一样。
根源定位:问题出在GPU内核调度
He 在博文中深入分析发现,非确定性的主要来源在于:
NVIDIA GPU 上运行的低级计算内核(kernels)在内存访问和并行任务调度上的不确定性拼接方式。
具体来说:
- 大模型推理涉及数千次矩阵运算,这些操作被拆解成小型内核程序在GPU上并行执行;
- 不同运行之间,这些内核的执行顺序和内存布局可能存在细微差异;
- 虽然单次误差极小,但在自回归生成过程中逐层放大,最终导致输出文本分叉。
这一结论打破了“随机性源于采样策略”(如temperature、top-p)的传统认知,将问题从算法层推进到了系统底层实现层。
解决方案方向:控制内核编排以提升确定性
实验室提出的核心思路是:
通过精细控制GPU内核的调度与内存管理,减少执行路径的变异性。
虽然尚未公布完整技术方案,但已有迹象表明,他们正在探索:
- 更严格的CUDA内核同步机制
- 确定性内存分配策略
- 推理引擎层面的执行轨迹固化
目标不是完全消除多样性(那将牺牲创造力),而是实现:
✅ 可控的确定性:在需要时,让模型对相同输入产生一致响应
✅ 科研可复现性:科学家能稳定复现实验结果
✅ 强化学习优化:减少RLHF训练中因输出波动带来的噪声干扰
正如He所言:“如果我们在奖励一个行为,却不总能得到相同的输出,那么训练信号就会变得嘈杂。”
这对未来使用强化学习定制企业级AI模型至关重要——而这正是该实验室此前向投资者透露的战略方向。
为什么这件事重要?
1. 对科研的意义:重建AI研究的“可验证性”
当前许多LLM实验难以复现,部分原因就在于推理过程不可控。若能实现高确定性输出,将极大提升模型调试、对比测试和学术交流的效率。
2. 对工程落地的价值:构建可信AI系统
在医疗、金融、法律等高风险领域,用户无法接受“这次说得对,下次就变了”的AI。确定性是迈向可审计、可追溯、可问责系统的关键一步。
3. 对训练效率的潜在提升
更稳定的生成行为意味着更干净的偏好数据、更高效的策略梯度更新,有望加速整个RL闭环。
开放承诺:能否走出OpenAI的老路?
值得一提的是,Thinking Machines Lab 明确表示:
将持续发布研究博客、代码和工具,“造福公众,同时提升我们自己的研究文化”。
这篇博文是其“Connectionism”系列的首篇,命名本身即是对联结主义传统的致敬,也暗示了其基础研究导向。
但这让人不禁想起OpenAI早期的开放承诺——从开源GPT-2到发布DALL·E论文,再到后来转向闭源商业化。如今,Murati 带领的这支明星团队是否会真正坚持开放路线,仍需时间检验。
下一步:产品化才是真正的考验
Murati曾在7月表示,首款产品将在未来几个月内推出,主要服务于“需要定制模型的研究人员和初创公司”。
目前尚不清楚这项关于确定性推理的研究是否会直接集成进首发产品,但可以合理推测:
- 其初期工具链可能聚焦于可复现的模型微调平台
- 或提供面向企业的高稳定性AI服务接口
- 强化学习驱动的定制化训练框架也是潜在方向
真正的挑战不在于发表一篇高质量博客,而在于:
能否围绕这些底层创新,构建出具有市场竞争力的产品,并证明其120亿美元估值的合理性。















