Inception Labs 发布 Mercury 2：扩散式 LLM 打破自回归瓶颈，推理速度提升 10 倍

41 0

在大型语言模型（LLM）领域，自回归（Autoregressive）架构长期占据主导地位，但其“逐字生成”的特性已成为高延迟场景的痛点。今日，Inception Labs 正式推出 Mercury 2，一款基于扩散模型（Diffusion Model）的全新 LLM，旨在彻底解决这一瓶颈，为多步推理和智能体应用带来革命性的速度提升。

试用地址：https://chat.inceptionlabs.ai

核心突破：从“串行”到“并行”的范式转移

传统 LLM 像打字机一样，必须按顺序从左到右一个接一个地生成 Token。这意味着复杂的推理任务需要漫长的等待时间，延迟随步骤线性累积。

Inception Labs 发布 Mercury 2：扩散式 LLM 打破自回归瓶颈，推理速度提升 10 倍

Mercury 2 采用了截然不同的扩散式文本生成机制：

并行生成：模型能在少量步骤中同时生成并优化大量 Token，而非逐个输出。
快速收敛：通过迭代去噪过程，迅速收敛到最终的高质量文本。
性能飞跃：在 NVIDIA Blackwell GPU 上，Mercury 2 实现了 1009 tokens/秒 的惊人吞吐量，远超同规模自回归模型。

“现代 AI 工作流不再是单次提示 - 响应，而是复杂的多步循环。自回归生成的延迟已成为系统瓶颈。” —— Inception Labs

专为推理与智能体打造

Mercury 2 并非通用聊天模型，而是专为高负载生产系统设计的推理引擎：

多步智能体循环：在 Agent 自主规划、执行、反思的闭环中，显著降低每一步的等待时间。
大规模数据提取：处理长文档检索、信息抽取任务时，利用 128K 原生上下文窗口 快速定位并输出结果。
可调推理能力：用户可根据任务复杂度动态调整推理步数，平衡速度与准确性。
原生工具与 JSON 支持：内置工具调用（Tool Use）能力和结构化 JSON 输出模式，无缝对接自动化工作流。

极具竞争力的定价与生态兼容

Inception Labs 不仅提供了技术突破，还制定了激进的市場策略：

超低定价：
- 输入：$0.25 / 1M tokens
- 输出：$0.75 / 1M tokens
- 相比主流闭源模型，成本降低了一个数量级。
OpenAI API 兼容：完全兼容 OpenAI API 标准，开发者无需修改代码即可切换至 Mercury 2，实现无缝迁移。
企业级反馈：早期合作伙伴报告称，在转录清理和自动化工作流中，延迟显著降低，吞吐量大幅提升。