Guide Labs 

3天前发布 5 00

旧金山初创公司 Guide Labs 给出了一个颠覆性的答案。他们正式开源了 Steerling-8B——一个拥有 80 亿参数的全新大语言模型。与以往任何模型不同,Steerling-8B 从架构设计之初就植入了原生可解释性(Native Interpretability)。

所在地:
美国
收录时间:
2026-02-24
Guide Labs Guide Labs 

在深度学习领域,最大的挑战往往不是模型不够聪明,而是我们不知道它为何聪明

无论是 xAI 为微调 Grok 的政治倾向而进行的艰难拉锯,还是 ChatGPT 偶尔出现的“讨好型”幻觉,亦或是金融、医疗等高风险领域对决策逻辑的严苛要求,归根结底都指向同一个问题:如何打开这个拥有数十亿参数的“黑盒”?

Guide Labs 

周一,旧金山初创公司 Guide Labs 给出了一个颠覆性的答案。他们正式开源了 Steerling-8B——一个拥有 80 亿参数的全新大语言模型。与以往任何模型不同,Steerling-8B 从架构设计之初就植入了原生可解释性(Native Interpretability)

核心突破:每一个 Token 都有据可查

Steerling-8B 的最大亮点在于其独特的训练架构:模型生成的每一个 token,都可以精确追溯回其在训练数据中的来源。

这意味着:

  • 事实核查:当模型陈述一个事实时,你可以直接看到它引用了哪篇文献或哪个数据源。
  • 概念解构:你可以深入理解模型是如何编码“幽默”、“性别”或“风险”等抽象概念的。
  • 精准控制:如果发现模型在某些概念上存在偏差,工程师可以像调节电路板一样,精准地“打开”或“关闭”特定的神经通路,而无需重新训练整个模型。

Guide Labs 首席执行官 朱利叶斯·阿德巴约(Julius Adebayo) 形象地比喻道:“如果我有 1 万亿种编码性别的方式,并且分散在 10 亿个事物中,现有模型很难可靠地找到并控制它们。这就像‘圣杯’一样难。但我们的架构让这一切变得可控。”

Guide Labs 

技术范式转移:从“神经科学”到“工程设计”

传统的 AI 可解释性研究,往往像是在做“神经科学”——模型训练好后,研究人员再拿着显微镜去观察神经元,试图逆向工程出它的逻辑。这种方法不仅低效,而且极其脆弱。

Guide Labs 彻底颠覆了这一流程:

  1. 前置概念层:他们在模型架构中直接插入了一个概念层(Concept Layer)
  2. 数据分类归因:在训练前,利用其他 AI 辅助,将海量数据分门别类地归入可追溯的概念类别。虽然这需要更多的前期数据标注工作,但换来的是模型内部结构的清晰透明。
  3. 设计即解释:阿德巴约表示:“我们从头开始设计模型,这样你就不需要做神经科学研究了。可解释性不再是事后的探索,而是事前的工程。”

性能与能力的平衡:90% 的能力,更少的数据

人们不禁会问:这种强约束的架构是否会牺牲模型的智能?是否会扼杀那些令人惊叹的“涌现能力”(Emergent Abilities)?

阿德巴约指出,涌现能力依然存在。他的团队在 Steerling-8B 中追踪到了模型自行发现的“新概念”(如量子计算),证明模型仍具备泛化未知事物的能力。

更令人惊喜的是效率:

  • 性能表现:Steerling-8B 达到了现有同规模前沿模型 90% 的能力水平
  • 数据效率:由于架构的优越性,它使用的训练数据更少,却实现了更高的透明度。

阿德巴约坚信:“训练可解释的模型已不再是一个科学探索问题,而是一个工程问题。我们没有理由认为这种模型无法在规模扩大后匹配甚至超越前沿模型的性能。”

应用场景:从版权保护到金融合规

原生可解释性将为多个关键领域带来革命性变化:

  • 版权与内容安全:模型构建者可以确切知道模型是否使用了受版权保护的材料,并能从源头阻断暴力、药物滥用等有害内容的生成路径。
  • 受监管行业(金融/法律):在评估贷款申请时,银行需要确保模型仅基于财务状况做决策,而完全忽略种族、性别等敏感特征。Steerling-8B 可以让这种“公平性”变得可验证、可审计。
  • 科学研究:在蛋白质折叠等科学发现中,科学家不仅需要结果,更需要知道软件是依据什么逻辑找出了有前景的组合,从而加速科研突破。

未来展望:为超级智能装上“方向盘”

Guide Labs 这家从 Y Combinator 孵化、并获得 Initialized Capital 900 万美元种子轮融资的公司,下一步计划是构建更大规模的模型,并开放 API 和智能体访问。

阿德巴约的愿景深远而务实:“目前我们训练模型的方式还非常原始。随着我们迈向超级智能时代,你绝对不希望一个对你来说神秘莫测的东西替你做出生死攸关的决定。普及固有的可解释性,从长远来看,是对人类角色的一种保护。

Steerling-8B 的开源,或许标志着 AI 发展进入了一个新阶段:不再盲目追求参数的堆砌,而是转向追求透明、可控与信任。 在这个新时代,AI 不仅要是聪明的助手,更要是透明的伙伴。

数据统计

相关导航

Protenix

Protenix

Protenix 是面向高精度生物分子结构预测构建的开源体系,也是字节跳动 Seed 团队在计算生物学领域,为推动开放、可复现、可扩展研究工具迈出的关键一步。Protenix-v1 是首个在严格对等条件下性能超越 AlphaFold 3 的全开源生物分子结构预测模型,支持蛋白质、核酸、配体等多类型分子的通用结构预测,不仅开放模型权重,同时完整开源训练数据 pipeline、MSA 处理流程与配套工具,让研究与工业界均可基于这套体系进行二次开发、标准化评估与规模化应用。

暂无评论

none
暂无评论...