神秘的 AI 初创公司 Nous Research 本周悄然推出开源大语言模型家族 Hermes 4。该公司声称,这一系列模型不仅在性能上比肩主流专有系统,更以“最小内容限制”和“用户高度可控”为核心卖点——不同于 OpenAI、Google 等公司的模型,Hermes 4 几乎对所有请求做出响应,不设常规商业 AI 的安全护栏。这一发布被视为开源 AI 阵营与科技巨头在“AI 能力控制权”争夺中的重要升级。
核心突破:“混合推理”模式,数学性能超越 ChatGPT
Hermes 4 最引人注目的创新是 “混合推理”功能,允许用户在“快速响应”与“深度思考”之间切换:激活该模式后,模型会先在特殊标签 `` 中生成完整的内部推理过程,再输出最终答案。这一设计类似 OpenAI 的 o1 模型,但实现了推理过程的完全透明。

实测数据显示,Hermes 4 的性能表现十分亮眼:
- 数学能力突出:最大的 4050 亿参数模型在 MATH-500 基准测试中得分 96.3%,在难度更高的 AIME’24 数学竞赛中得分 81.9%,性能匹敌甚至超过开发成本数百万美元的专有模型;
- 拒绝率极低:在 Nous Research 自研的“RefusalBench”基准(衡量模型拒绝回答问题的频率)中,该模型得分 57.1%,远超 GPT-4o(17.67%)和 Claude Sonnet 4(17%),几乎不拒绝用户请求。
AI 研究员 Rohan Paul 评价称:“难点在于让推理轨迹既有用、可验证,又不会失控——Hermes 4 很好地解决了这个问题。”

技术支撑:两大训练系统,192 张 GPU 打造高性能模型
Hermes 4 的能力源于 Nous Research 耗时多年搭建的训练基础设施,核心是 DataForge 和 Atropos 两大系统:
1. DataForge:生成复杂训练数据的“图驱动引擎”
该系统通过“有向图随机游走”技术,将简单预训练数据转化为复杂的指令跟随样本。例如,它可以把维基百科文章改编成说唱歌曲,再基于改编内容生成问答对,大幅提升训练数据的多样性和实用性。
2. Atropos:强化学习框架,只保留“高质量响应”
Atropos 模拟数百个专用训练环境,让模型针对性练习数学、编码、工具使用、创意写作等技能——只有当模型输出正确解决方案时,才会收到反馈并将该样本纳入训练数据(即“拒绝采样”机制)。
据投资 Nous Research 的 Delphi Ventures 风投家 Tommy Shaughnessy 透露:“Hermes 4 的训练数据集包含 350 万推理样本和 160 万非推理样本,且基于强化学习数据训练,而非静态问答集。”
训练最大模型共动用 192 张 Nvidia B200 GPU,耗时 71616 GPU 小时——虽投入巨大,但远低于科技巨头的预算,展现了初创公司在 AI 研发上的高效性。
核心哲学:拒绝“安全护栏”,把控制权交给用户
Nous Research 一直以“用户控制优先”为核心定位,Hermes 4 更是彻底摒弃了商业 AI 常见的内容审核和安全约束。Shaughnessy 直言:“那些免责声明、规则和过度谨慎的限制既烦人又阻碍创新——如果开源模型也像专有模型那样拒绝请求,就失去了存在的意义。”
这一理念让 Hermes 4 深受追求灵活性的研究员和开发者青睐,但也使其陷入 AI 安全争议:模型理论上可被用于生成有害内容。对此,Nous Research 强调“透明和用户自主”优于“企业单方面把关”,并随模型发布了详细技术报告,公开训练过程、评估结果及基准测试输出,号称“为 AI 基准测试树立透明新标杆”。
技术修复:解决推理模型“无限循环”痛点
Hermes 4 还针对性解决了推理模型的常见问题——过长思考导致的上下文溢出。研究发现,140 亿参数的小模型在推理时,60% 的情况下会耗尽最大上下文长度,陷入“无限思考”。
团队的解决方案是增加“二次训练阶段”,教会模型在生成 30000 个令牌后自动停止推理——这一调整使过长生成问题减少 65%-79%,同时基本保留推理性能。AI 研究员 Muyu He 指出:“小模型(<14B)在蒸馏时容易过度思考,而 Hermes 4 的长度控制技术有效解决了这一难题。”
获取方式与行业意义:开源阵营的又一里程碑
目前,Hermes 4 已通过多渠道开放:
- 免费下载:模型权重可在 Hugging Face 直接获取;
- API 访问:通过 Nous 翻新的聊天界面,或与 Chutes、Nebius、Luminal 等推理服务商合作提供接口;
- 适用场景:企业和研究员可用于定制化开发,尤其适合处理敏感内容或需要高度自定义的场景,成本远低于专有模型 API。
Hermes 4 的发布,是开源 AI 阵营的又一重要突破。近年来,Meta Llama 3.1、DeepSeek R1、阿里 Qwen 等开源模型已逐步追平专有系统,而 Hermes 4 进一步在“推理性能”和“无约束输出”上打开缺口——要知道,推理曾是 OpenAI o1 等封闭模型的核心优势。
对于行业而言,这家仅用 192 张 GPU、募集 6500 万美元资金的初创公司,证明了“非巨头也能在 AI 核心领域实现创新”。Nous Research 还在开发基于区块链的分布式训练系统 Psyche Network,未来可能进一步降低 AI 研发的算力门槛。















