在AI领域,推理能力一直是研究和开发的热点。推理模型通过逐步解决复杂问题来有效自我验证,从而在数学和物理等领域展现出巨大潜力。然而,这种能力往往伴随着更高的计算需求和延迟。为了平衡推理能力和效率,混合模型架构应运而生。近日,一家名为Deep Cogito的初创公司悄然亮相,推出了一组混合AI模型——Cogito 1,这些模型可以在“推理”和非推理模式之间灵活切换。
混合AI模型的创新
Deep Cogito的Cogito 1模型是其核心产品。这些模型能够在推理和非推理模式之间切换,既能快速回答简单问题,又能为更具挑战性的查询投入额外时间。这种混合架构的设计,使得Cogito 1在性能和效率之间达到了良好的平衡。

Cogito 1模型的参数规模从30亿到700亿不等,未来几周和几个月内,Deep Cogito计划推出高达6710亿参数的模型。参数规模通常与模型的解决问题能力成正比,因此,Cogito 1的高参数模型在处理复杂任务时具有显著优势。
性能优势与技术基础
根据Deep Cogito的内部基准测试,Cogito 1模型在启用推理功能时,在数学和语言评估中超过了DeepSeek的R1推理模型。即使在禁用推理功能的情况下,Cogito 1模型也在LiveBench(一项通用AI测试)中超越了Meta最近发布的Llama 4 Scout模型。这些测试结果表明,Cogito 1在推理和非推理模式下均表现出色。
值得注意的是,Cogito 1并非从零开始开发。Deep Cogito基于Meta的开源Llama和阿里巴巴的Qwen模型,采用了新颖的训练方法来提升基础模型的性能,并实现了可切换的推理功能。这种基于现有模型的创新开发模式,不仅加快了开发速度,还确保了模型的高性能。
应用与未来展望
Cogito 1模型可以通过云提供商Fireworks AI和Together AI的API下载或使用,为开发者提供了灵活的接入方式。Deep Cogito在博客中表示,目前公司仍处于扩展曲线的早期阶段,仅使用了传统大型语言模型后续/持续训练所需计算资源的一小部分。未来,Deep Cogito将继续探索用于自我改进的互补性后续训练方法,以进一步提升模型的性能。
团队与投资者背景
Deep Cogito成立于2024年6月,总部位于旧金山。公司的LinkedIn页面列出了两位联合创始人:Drishan Arora和Dhruv Malhotra。Malhotra此前在谷歌AI实验室DeepMind担任产品经理,致力于生成式搜索技术。Arora则是谷歌的高级软件工程师。两位创始人的强大背景为Deep Cogito的发展提供了坚实的技术支持。
据Pitchbook报道,Deep Cogito的投资者包括South Park Commons,该公司雄心勃勃地旨在打造“通用超智能”。公司创始人将这一术语理解为能够比大多数人类更好地执行任务,并“揭示我们尚未想象的全新能力”的AI。