微软旗下AI 助手 Copilot泄露私有 GitHub 页面,部分已被微软移除

早报1周前发布 小马良
31 0

微软的 AI 助手 Copilot 最近被发现泄露了超过 20,000 个私有 GitHub 存储库的内容,涉及包括谷歌、英特尔、华为、PayPal、IBM、腾讯以及微软自身在内的多家公司。这一事件引发了对数据隐私和 AI 模型训练数据来源的广泛讨论。

微软旗下AI 助手 Copilot泄露私有 GitHub 页面,部分已被微软移除

事件概述

Copilot 泄露的内容来自那些最初设置为公开、后来被开发者更改为私有的存储库。这些存储库通常包含敏感信息,例如身份验证凭据、密钥或其他机密数据。尽管开发者已经将这些存储库设为私有,但它们的内容仍然可以通过 Copilot 访问。

微软旗下AI 助手 Copilot泄露私有 GitHub 页面,部分已被微软移除

AI 安全公司 Lasso 在 2024 年下半年首次发现了这一问题,并在 1 月份确认 Copilot 继续存储并提供这些私有存储库的内容。Lasso 将此问题追溯到微软 Bing 的缓存机制——当存储库公开时,Bing 对其进行了索引,即使后来存储库被设为私有或删除,缓存中的内容也未被清除。

“僵尸”存储库现象

Lasso 研究人员 Ophir Dror 和 Bar Lanyado 在一篇博客文章中描述了这些曾经公开、后被设为私有的存储库为“僵尸”存储库。他们指出:

 “任何在 GitHub 上短暂公开过的数据都可能被 Copilot 等工具索引和暴露。我们对这些信息如此容易被访问感到震惊。”

为了评估问题的范围,Lasso 开发了一种自动化方法来识别这些“僵尸”存储库,并验证它们是否仍可通过 Copilot 访问。结果表明,Copilot 不仅可以访问这些存储库,还能提供原本已从 GitHub 删除的内容。

微软的修复尝试

在 Lasso 于 11 月报告该问题后,微软引入了一些修复措施。这些措施切断了公众对 Bing 缓存页面的直接访问,但并未彻底清除缓存中的数据。因此,尽管普通用户无法再通过 Bing 查看这些内容,Copilot 仍然可以访问并提供这些数据。

微软旗下AI 助手 Copilot泄露私有 GitHub 页面,部分已被微软移除

Lasso 研究人员解释道:

 “尽管 Bing 的缓存链接功能已被禁用,但缓存页面仍继续出现在搜索结果中。这表明修复只是一个临时补丁,虽然公共访问被阻止,但底层数据并未完全删除。”

此外,Lasso 发现,即使某些存储库因法律诉讼而从 GitHub 中删除,Copilot 依然能够提供这些存储库中的内容。这进一步证明了微软的修复措施并不彻底。

开发者的困境:覆水难收

长期以来,开发人员经常将安全令牌、私有加密密钥等敏感信息嵌入代码中,然后将其推送到公共存储库。这种做法本身就存在安全隐患。然而,当这些存储库被设为私有时,许多人以为问题已经解决。Lasso 的研究揭示了一个残酷的事实:一旦数据被公开,就无法完全收回。

微软建议开发者始终将敏感存储库保持为私有状态,以避免内容被用于训练 AI 模型。然而,这种建议并不能解决已经发生的数据泄露问题。对于那些已经暴露的数据,唯一的解决方案是轮换所有受影响的凭据。但这仍然无法弥补其他类型敏感数据(如算法或专有工具)的损失。

微软的声明

针对这一事件,微软在一封电子邮件声明中表示:

 “众所周知,大型语言模型通常在来自网络的公开可用信息上进行训练。如果用户希望避免使其内容公开可用于训练这些模型,我们鼓励他们始终保持其存储库私有。”

然而,这种声明并未完全解决问题,因为许多开发者可能并未意识到他们的公开存储库会被用于训练 AI 模型,或者他们可能无意中将敏感数据推送到公开存储库。

影响与教训

  1. 数据隐私的重要性:此次事件再次提醒我们,数据一旦公开,就很难完全收回。开发者需要更加谨慎地管理敏感信息,避免将其嵌入代码或推送到公共存储库。
  2. AI 模型的透明性需求:大语言模型(LLM)的训练数据来源一直是一个争议话题。此次事件表明,AI 模型可能会无意中暴露用户的敏感数据,因此需要更高的透明性和更好的数据管理机制。
  3. 缓存清理的必要性:微软的 Bing 缓存机制显然存在问题,未能及时清除已设为私有的内容。未来,搜索引擎和 AI 工具需要更好地处理这类数据,确保用户隐私得到保护。
© 版权声明

相关文章

暂无评论

none
暂无评论...