xAI 推出 Grok 4 Fast：单模型双模式，支持200万上下文，推理成本降98%

早报6个月前发布小马良

256 0

xAI 正式推出 Grok 4 Fast ——一款在成本效率与推理性能之间取得突破平衡的新一代模型。它不是简单地堆叠参数，而是聚焦于“智能密度”的提升：用更少的计算资源完成高质量的复杂任务。

xAI 推出 Grok 4 Fast：单模型双模式，支持200万上下文，推理成本降98%

Grok 4 Fast 的目标明确：让高阶 AI 推理能力不再局限于少数资源充足的机构，而是变得更轻量、更快、更具可及性。

核心优势：高效、统一、实时

✅ 显著降低推理成本

基于 Grok 4 的训练经验，Grok 4 Fast 在多个关键维度实现跃升：

相比 Grok 4，平均减少 40% 的思考令牌使用量
每个输出 token 成本大幅下降
实现相同性能水平时，综合成本降低 98%

这一结果已通过第三方评测机构 Artificial Analysis 验证，在其发布的“价格-智能比率”榜单中，Grok 4 Fast 达到当前公开可用模型中的最先进（SOTA）水平。

这意味着：你可以用极低的成本运行原本昂贵的长链推理任务。

原生工具调用 + 实时搜索能力

Grok 4 Fast 在训练阶段就引入了端到端的强化学习机制，使其具备自主判断是否调用外部工具的能力，例如：

执行代码
浏览网页
检索 X 平台内容

这使得它在处理需要实时信息的任务时表现尤为出色。例如，在回答涉及最新事件的问题时，模型可主动跳转链接、解析图文视频内容，并快速整合成连贯回应——整个过程无需人工干预。

它不只是“能联网”，而是“知道什么时候该联网”。

在 LMArena 上的表现：小模型，大能量

Grok 4 Fast 已在内部测试平台 LMArena 中完成多轮对抗评估，涵盖“搜索”与“文本生成”两大场景。

模型代号	场景	Elo 得分	排名
menlo (grok-4-fast-search)	搜索竞技场	1163	第1位
tahoe (grok-4-fast)	文本竞技场	-	第8位

在搜索任务中，menlo 领先 o3-search 17 分，展现出卓越的信息检索与综合能力；
在通用对话与推理中，tahoe 表现接近 grok-4-0709，远超同规模其他模型（同类模型排名均低于第18位）；

这些数据表明：Grok 4 Fast 虽非最大模型，但在智能密度和任务效率上处于领先地位。

统一架构：一个模型，两种模式

以往，推理模式（Reasoning）与快速响应模式（Non-reasoning）通常依赖两个独立模型。Grok 4 Fast 首次实现了单模型双模式统一架构：

使用相同的权重参数
通过系统提示（system prompt）动态切换行为
支持从即时应答到深度链式推理的平滑过渡

这种设计带来了双重优势：

降低延迟：无需模型切换或上下文迁移
节省成本：避免重复加载或冗余计算

在实际应用中（如 grok.com 或移动端 App），这意味着：

简单问题 → 即时回复
复杂查询 → 自动进入深度推理流程

用户无感知切换，体验更流畅。

当前可用性：全面开放，限时免费

🌐 对终端用户

Grok 4 Fast 已上线 grok.com 及 iOS / Android 应用：

所有用户（包括免费账户）均可无限制访问
“自动模式”下会根据问题复杂度智能启用该模型
搜索与信息类查询响应速度显著提升

这是 xAI 向“民主化高级 AI”迈出的重要一步。

⚙️ 对开发者

Grok 4 Fast 现已通过以下平台提供服务：

OpenRouter（限时免费）
Vercel AI Gateway（限时免费）
xAI API（正式发布）

并通过 xAI API 提供两个专用接口：

grok-4-fast-reasoning：适用于复杂推理任务
grok-4-fast-non-reasoning：适用于低延迟交互

两者均支持高达 200 万 token 的上下文窗口（2M context），是目前最长上下文之一。

定价如下（单位：美元 / 百万 token）

类型	<128K tokens	≥128K tokens
输入（Input）	$0.20	$0.40
输出（Output）	$0.50	$1.00
缓存输入（Cached Input）	$0.05	—

缓存机制可进一步降低重复内容的处理成本，适合知识库问答等场景。

展望未来

xAI 表示将持续基于用户反馈迭代 Grok 4 Fast，后续计划包括：

增强多模态理解能力（图像、音频等）
提升代理（Agent）级别的自主决策能力
深化与 X 平台的实时数据集成

早报 # Grok 4 Fast # xAI

文章版权归作者所有，未经允许请勿转载。

谷歌的AI聊天机器人Gemini对政治话题采取保守策略

早报 # Gemini # 谷歌

1年前

03800

英国政府推出AI示范计划，用技术为公共服务减负

早报 # AI # 英国

7个月前

02110

OpenAI 测试两大新工具：可控“思考努力”与对话分支，提升交互灵活性

早报 # GPT-5 # OpenAI

7个月前

0880

WordPress 的 AI 工具 Telex 已投入实战：非开发者也能秒建交互式网站

早报 # Telex # WordPress

4个月前

0300

暂无评论

暂无评论...

xAI 推出 Grok 4 Fast：单模型双模式，支持200万上下文，推理成本降98%

核心优势：高效、统一、实时

✅ 显著降低推理成本

原生工具调用 + 实时搜索能力

在 LMArena 上的表现：小模型，大能量

统一架构：一个模型，两种模式

当前可用性：全面开放，限时免费

🌐 对终端用户

⚙️ 对开发者

定价如下（单位：美元 / 百万 token）

展望未来

Ollama 云模型上线预览：本地体验无缝延伸至云端

英伟达9亿美元“招贤”：收购Enfabrica技术并引入其CEO

相关文章

谷歌的AI聊天机器人Gemini对政治话题采取保守策略

英国政府推出AI示范计划，用技术为公共服务减负

OpenAI 测试两大新工具：可控“思考努力”与对话分支，提升交互灵活性

WordPress 的 AI 工具 Telex 已投入实战：非开发者也能秒建交互式网站

暂无评论

文章

DiT架构的文生视频模型xGen-VideoSyn-1：根据文本描述生成逼真的视频场景

用“Megakernel”打破LLM推理瓶颈：斯坦福Hazy Research实现Llama-1B史上最低延迟

Vivaldi CEO 强硬表态：坚决禁止浏览器集成生成式 AI，网页该由人类主导

新限时免费体验一周！小米凌晨官宣三款大模型：MiMo-V2 系列正式亮相，1M 上下文比肩 Opus 4.6

针对姿势引导的人像图像动画技术TCAN：让图片中的人物根据某个动作序列（比如一个视频）来做出相应的动作

自适应投影引导APG：不牺牲图像质量的前提下，使用更高的指导尺度，从而生成更丰富、更真实的图像

新悟空

Meshy

S.H.I.T

OpenMAIC

Sub2API

ArkClaw

xAI 推出 Grok 4 Fast：单模型双模式，支持200万上下文，推理成本降98%

核心优势：高效、统一、实时

✅ 显著降低推理成本

原生工具调用 + 实时搜索能力

在 LMArena 上的表现：小模型，大能量

统一架构：一个模型，两种模式

当前可用性：全面开放，限时免费

🌐 对终端用户

⚙️ 对开发者

定价如下（单位：美元 / 百万 token）

展望未来

Ollama 云模型上线预览：本地体验无缝延伸至云端

英伟达9亿美元“招贤”：收购Enfabrica技术并引入其CEO

相关文章

文章

标签云

网址

新悟空

Meshy

S.H.I.T

OpenMAIC

Sub2API

ArkClaw