Deep Cogito发布Cogito v2 预览版:从“思考更多”到“直觉更强”的推理范式跃迁

大语言模型4个月前发布 小马良
359 0

Deep Cogito 今日正式发布 Cogito v2 预览版,推出四款开源混合推理模型:

  • 70B 密集型
  • 109B MoE
  • 405B 密集型
  • 671B MoE

其中,671B MoE 是当前全球最强的开源大模型之一,在多项任务上性能媲美甚至超越 DeepSeek R1 与 v3,并逼近闭源前沿模型如 o3 和 Claude 4 Opus。

但真正值得关注的,不是参数规模,而是其背后的方法论变革:Cogito 正在尝试让模型“学会思考”,而非仅仅“花更多时间思考”

关键突破:从“推理时搜索”到“内化直觉”

当前主流推理模型的性能提升,大多依赖于延长推理链(如增加思考 token 数量),本质上是“用更多搜索弥补先验不足”。这种方式虽有效,但效率低下,且难以扩展。

Cogito 的目标不同:它试图通过 迭代蒸馏与放大(Iterative Distillation and Amplification, IDA),将模型在推理过程中学到的策略“蒸馏”回参数中,从而增强其智能先验(intelligent prior)

这意味着:

模型不再需要每次都从头推理,而是能“凭直觉”接近正确答案。

这正是 AlphaGo 系列实现超人表现的核心机制——通过蒙特卡洛树搜索(MCTS)生成高质量策略,再将其训练回神经网络。Cogito 将这一思想迁移到语言模型领域,构建了一个可扩展的自我改进闭环

方法论:构建超级智能的两步循环

Cogito 的方法基于一个已被验证有效的智能演化框架:

  1. 推理时推理(Reasoning-time Inference)
    在回答前进行内部思考,探索可能的解法路径。
  2. 迭代策略改进(Iterative Strategy Improvement)
    将成功的推理过程反向训练回模型参数,提升其下一次推理的起点质量。

这一循环使得模型不仅能“解决问题”,还能“学会如何更好地解决问题”。

“我们不是在训练一个更会搜索的模型,而是在训练一个更懂搜索的模型。”

Cogito v2 的核心进展在于:将第二步——策略蒸馏——系统化、规模化,并应用于超大规模模型

四款模型,两种路径

本次发布的四款模型采用差异化训练策略,探索不同方向的优化边界。

Deep Cogito发布Cogito v2 预览版:从“思考更多”到“直觉更强”的推理范式跃迁

中等规模模型(70B、109B MoE、405B 密集型)

  • 目标:提升非推理模式下的“直觉”能力
  • 方法:将推理过程蒸馏回原始模型参数
  • 效果:
    • 在标准生成模式下表现显著优于同规模 Llama 基线
    • 减少对回溯、重试等启发式技巧的依赖
    • 更接近前沿模型的“自然流畅性”

这些模型适用于需要高响应速度、低延迟的场景,同时保持强推理能力。

超大规模模型(671B MoE)

  • 目标:同时优化“直觉”与“推理过程”
  • 方法:不仅蒸馏最终答案,还为思考过程本身提供训练信号
  • 效果:
    • 推理链长度比 DeepSeek R1 缩短 60%,性能持平或更优
    • 在非推理模式下,性能匹敌 DeepSeek v3 0324
    • 内部测试中,综合能力位列全球开源模型前列

这是目前唯一一个在训练中明确优化“推理路径质量”的开源模型,标志着从“输出正确”向“过程高效”的跃迁。

Deep Cogito发布Cogito v2 预览版:从“思考更多”到“直觉更强”的推理范式跃迁

性能对比:开源模型中的佼佼者

模型推理模式性能推理链长度非推理模式性能
DeepSeek R1
DeepSeek v3
Cogito 671B MoE≥ R1-60%≥ v3

在闭源模型对比中:

  • 略逊于 o3 和 Claude 4 Opus,但差距有限
  • 显著优于其他开源模型(包括 Qwen、Llama 系列)

值得注意的是,这些模型尚未经历完整的后训练扩展(post-training scaling),当前性能仅为“概念验证”级别。团队计划后续通过梯度攀登进一步释放潜力。

成本效率惊人:总训练成本低于 350 万美元

一个常被忽视的事实是:许多“前沿”模型的训练成本高达数千万美元。而 Cogito 的全部八款模型(从 3B 到 671B)的总训练成本低于 350 万美元,涵盖:

  • 合成数据生成
  • 人工标注
  • 超过 1000 次训练实验
  • 基础设施与调优

这证明:超级智能的构建不一定依赖巨额资本投入,高效的训练范式同样关键。

意外能力:纯文本训练,却学会图像推理

尽管 Cogito 模型仅在纯文本数据上训练,且未接触任何图像-文本对,但在多模态任务中展现出惊人迁移能力。

Deep Cogito发布Cogito v2 预览版:从“思考更多”到“直觉更强”的推理范式跃迁

例如,在给定两张图片(一只绿头鸭和一只雄狮)后,模型开启 enable_thinking 模式,能自主完成以下任务:

  • 分析视觉元素(颜色、构图、情绪)
  • 比较环境、行为、纹理差异
  • 推断拍摄意图与美学特征

其输出逻辑严密、层次清晰,表现出类似人类的跨模态理解能力。

“我们没有训练它看图说话,但它学会了推理图像。”

这一现象表明:强大的语言推理能力本身可能蕴含通用感知先验,为未来多模态研究提供新思路。

⚠️ 注:该能力尚未在标准视觉基准上评估,仅作为研究观察。

© 版权声明

相关文章

暂无评论

none
暂无评论...