经过多年的快速扩张和数十亿美元的投资,2026年可能标志着人工智能直面其实际效用的时刻。斯坦福大学计算机科学、医学、法学和经济学领域的多位教授在预测未来一年时,都指向了一个引人注目的主题:AI布道时代正在让位于AI评估时代。无论是法律推理的标准化基准、追踪劳动力替代的实时仪表板,还是审查如潮水般涌现的医疗AI初创公司的临床框架,未来一年都要求严谨而非炒作。问题不再是"AI能做到这个吗?",而是"做得有多好,成本是多少,为谁服务?"
深入了解斯坦福HAI的教授们对新年的期望。
AI主权与全球增长
James Landay, HAI联席主任,计算机科学教授,工程学院Anand Rajaraman and Venky Harinarayan讲席教授
我最大的预测?今年不会出现AGI(通用人工智能)。
此外,随着各国试图展示其独立于AI供应商和美国政治体系,AI主权今年将获得巨大动力。什么是AI主权?在一个主权模型中,一个国家可能会构建自己的大型LLM。另一个例子是,一个国家可能会在他人的LLM上使用自己的GPU运行,以确保其数据不会离开本国。"主权"这个词定义并不明确,HAI目前正在开展一个项目,以帮助人们理解这些不同的模型并提供一些分析。
显然,我们在2025年看到了全球范围内对大型数据中心的巨大投资,无论是5月的阿联酋还是秋季的韩国。我们可能会看到像英伟达和OpenAI这样的组织在其他国家进行巡回宣传,这与AI主权以及他们如何获得优势有关。我们将在2026年看到这些持续的AI数据中心投资。但在某个时刻,你不能把世界上所有的钱都绑在这一件事情上。这看起来像是一个非常投机的泡沫。
AI主权今年将获得巨大动力,因为各国在展示其独立于AI供应商和美国政治体系。
—— James Landay, 斯坦福HAI Denning联席主任
另外,在2026年,我们会听到更多公司说,除了编程和呼叫中心等特定目标领域外,AI尚未显示出生产力的提升。我们会听到很多失败的AI项目。现在,人们会从这些失败中吸取教训,并找到在今年更成功地应用AI的合适方式吗?也许会。
我认为我们将看到一些新的定制UI AI产品,超越现有的聊天机器人甚至OpenAI发布的网络浏览器。我认为在新的一年里,即使不是真正的产品,我们也会看到这些东西的预览版。
还有,"渐近线"现象。我们有庞大的模型,但我们也看到了比庞大型号表现更好但更小的模型。我们似乎在数据量上达到了某种峰值,这既是因为我们正在耗尽数据,也因为数据质量低下。我预计将会有更多的努力投入到策划真正优质但规模较小的数据集,并创建在较小数据上表现更好的模型。
显然,2025年发生了很多AI视频方面的进展,但它们并不太好。不过,在我的一门课程中,一个学生团队使用AI制作了一个通常需要演员和特殊场地的视频。虽然存在一些问题,但它实际上相当不错。我认为这意味着视频工具终于变得足够好,我们将看到真正的应用,并且在新的一年里看到它起飞。与此相关的是,我们将看到更多的版权问题。
打开黑箱是科学的下一个使命
Russ Altman, 工程学院Kenneth Fong讲席教授,生物工程、遗传学、医学和生物医学数据科学教授,斯坦福HAI高级研究员
我看到基础模型在解锁科学和医学领域的发现与预测方面具有巨大潜力。目前,构建这些模型有几种方法。例如,开发者可以构建一个包含所有数据类型的巨型"早期融合"模型,或者构建一个"晚期融合"模型——先为每种模态构建单独的模型,然后进行整合。我认为这其中存在一些深刻的问题。单独构建的模型是否能很好地协同工作?当某些数据不好时会发生什么?如果你有一个晚期融合模型,比如你组合了几个包括DNA、RNA和蛋白质在内的模型,你可以只重建DNA模块,而无需重建其他部分。然而,对于早期融合模型,每次更新时都必须重建所有东西。我的预测是,在未来一年,我们可能会更清楚哪种融合方法是更好的。
我预计未来会更关注高性能神经网络的"考古学"。
—— Russ Altman, HAI高级研究员
此外,人们正在发现AI在科学研究中的惊人力量。但在科学中,你需要的不仅仅是准确的预测;你必须对模型如何得出该预测有深入的了解。在科学实验室中,人们越来越关注的不是模型的输出,而是导致其性能的内部神经网络,即哪些数据关注哪些其他数据的注意力图谱。
在2026年,我预计将更关注高性能神经网络的"考古学"。我们刚刚发表了一篇名为《关注蛋白质中的注意力》的论文。我看到人们使用所谓的稀疏自编码器作用于深层网络,试图识别驱动性能的数据特征。在科学领域,打开AI黑箱是绝对的必要,而我正开始看到我们打开这个黑箱。
现在,看看AI和医疗保健业务。过去一年,我们看到大量商业投资涌入使用AI进行医疗的初创公司。一家典型的医院会收到大量初创公司的询问,他们想向医院推销针对X问题的解决方案。每个单独的解决方案并非不合理,但总体上,它们就像一场冲向高管的海啸般的噪音。今年,我期望我们开始开发方法来评估AI系统的影响、其技术特性、训练人群、如何实施、对员工来说效率如何或干扰多大、对医院工作流程的投资回报率、患者满意度以及决策质量。所有这些都是我们斯坦福大学正在着手解决的过程,部分由斯坦福医院首席数据科学家Nigam Shah领导。但我们也需要让技术能力或资源不那么充足的市场也能使用这些评估方法。
法律AI转向投资回报率、严谨性和多文档推理
Julian Nyarko, 法学教授,斯坦福HAI副主任
我预测,两个主题可能定义法律服务领域的AI之年。首先,严谨性和投资回报率。律所和法院可能会停止问"它能写吗?",转而开始问"写得有多好,针对什么,风险如何?"我期望更多标准化的、特定领域的评估将成为基本要求,将模型性能与有形的法律成果联系起来,如准确性、引文完整性、特权暴露风险和周转时间。重点也可能更加强调实际工作流程(文档管理、计费和知识系统)中的效率提升,而非受控的人为场景。其次,AI将承担更困难的工作。除了信息录入和初稿撰写,我们已经开始看到向处理例如多文档推理的系统转变:综合事实、映射论点、追踪来源以找出对立权威。这种转变需要新的评估框架——如LLM-as-judge和成对偏好排序——来大规模评估复杂的法律任务。围绕这些想法构建的新兴基准,如GDPval,可能会将开发路线图引向更高阶的任务。
AI泡沫的收缩
Angèle Christin, 传播学副教授,斯坦福HAI高级研究员
旧金山的广告牌说明了一切:AI无处不在!!!什么都能做!!!无时不在!!!这些广告略带狂热的语气,反映了人们对生成式AI和AI智能体寄予的希望——以及巨大的投资。
到目前为止,金融市场和大型科技公司已经加倍押注AI,投入大量资金和人力资本,并建设庞大的计算基础设施以维持AI的增长和发展。然而,已有迹象表明AI可能无法完成我们希望它做到的一切。还有一些迹象表明,在某些情况下,AI可能会误导、削弱技能并伤害人。也有数据显示,当前AI的建设带来了巨大的环境成本。
我预计,我们将对AI能带来什么抱持更现实的态度。AI对某些任务和过程来说是一个极好的工具;对另一些任务(比如,学生不阅读文献就生成期末论文!)来说则是一个有问题的工具。在许多情况下,AI的影响可能是适度的:这里带来一些效率和创造力增益,那里带来一些额外的劳动和繁琐。我特别期待看到更多关于AI能做什么和不能做什么的精细实证研究。这不一定是泡沫破裂,但泡沫可能不会再变得更大了。
AI在医学领域的"ChatGPT时刻"
Curtis Langlotz, 放射学、医学和生物医学数据科学教授,研究高级副教务长,斯坦福HAI高级研究员
直到最近,开发医疗AI模型还极其昂贵,需要由高薪医疗专家标注的训练数据(例如,将乳腺X光片标记为良性或恶性)。现在,商业聊天机器人开发者广泛使用的新型自监督机器学习方法不需要标签,并已显著降低了医疗AI模型的训练成本。
医疗AI研究者在整合利用自监督所需的大规模数据集方面进展较慢,因为需要保护患者数据的隐私。但基于稍小数据集的自监督学习已在放射学、病理学、眼科学、皮肤学、肿瘤学、心脏病学以及生物医学的许多其他领域显示出前景。
我们许多人会记得我们发现通过自监督训练的聊天机器人具有惊人能力的神奇时刻。我们很快将看到AI在医学领域的一个类似"ChatGPT时刻",届时AI模型将在规模足以媲美训练聊天机器人所用数据的大规模高质量医疗数据上进行训练。这些新的生物医学基础模型将提高医疗AI系统的准确性,并能够诊断那些因训练数据稀缺而难以诊断的罕见和不常见疾病。
从炒作到仪表板:实时衡量AI
Erik Brynjolfsson, 数字经济实验室主任,Jerry Yang and Akiko Yamazaki讲席教授,斯坦福HAI和SIEPR高级研究员
在2026年,关于AI经济影响的争论最终将让位于精确的衡量。我们将看到高频"AI经济仪表板"的出现,这些仪表板将在任务和职业层面追踪AI在哪里提高生产力、取代工人或创造新角色。利用薪资、平台和使用数据,这些工具将像实时国民经济核算一样运作。在我们与ADP进行的"矿井中的金丝雀"工作中,我们已经看到在受AI影响的职业中,早期职业者的就业和收入结果较弱;在2026年,类似的指标将每月更新,而不是多年之后。高管将每天检查AI暴露指标,就像查看收入仪表板一样,而政策制定者将利用它们来定位培训、安全网和创新政策。争论将从"AI是否重要"转向"其影响扩散的速度有多快"、"谁被落下"以及"哪些互补性投资能最好地将AI能力转化为广泛的繁荣"。
GenAI试图绕过企业
Nigam Shah, 医学和生物医学数据科学教授,斯坦福医疗保健首席数据科学家
随着关于使用GenAI的炒作升温,技术创造者将对医疗系统内漫长的决策周期感到沮丧,并开始以"免费"提供给最终用户的应用形式,直接面向用户。例如,考虑一下像 OpenEvidence 提供文献摘要,以及 AtroposHealth 提供按需临床问题解答这样的努力。
在技术方面,我们将看到生成式Transformer的兴起,它们有可能在不需任何特定任务标签的情况下,预测诊断、治疗反应或疾病进展。
鉴于可用解决方案的增加,让患者了解提供AI"帮助"的依据将变得至关重要。研究人员通过良好基准测试跟上技术发展的能力将被拉得很紧,即使其重要性已被广泛认识。我们还将看到赋能患者在其自身护理中拥有能动性的解决方案增多。
我们正处于一个重要的反思点,思考我们真正想从AI那里得到什么。
—— Diyi Yang, 计算机科学助理教授
推进人类-AI交互以实现长期益处
Diyi Yang, 计算机科学助理教授
围绕构建能带来长期益处的AI系统需要更多发展。随着LLM中表现出的日益增长的奉承性,将LLM用于心理健康和陪伴的日益增多,以及AI对批判性思维和基本技能的影响,我们正处于一个重要的反思点,思考我们真正想从AI那里得到什么,以及如何实现它。
就我个人而言,我希望看到更多围绕设计以人为本的AI系统的工作,这些系统不仅技术上有能力,而且能有意义地联系到人们的思考、互动和协作方式。这需要超越为短期参与度或满意度优化AI系统,转而优先考虑人类-AI交互如何塑造用户的长期发展和福祉。我们需要能增强人类能力的AI系统,这需要从一开始就内置到AI开发过程中,而不是被视为事后的对齐问题。(来源)















