微软旗下AI 助手 Copilot泄露私有 GitHub 页面，部分已被微软移除

90 0

微软的 AI 助手 Copilot 最近被发现泄露了超过 20,000 个私有 GitHub 存储库的内容，涉及包括谷歌、英特尔、华为、PayPal、IBM、腾讯以及微软自身在内的多家公司。这一事件引发了对数据隐私和 AI 模型训练数据来源的广泛讨论。

Copilot 泄露的内容来自那些最初设置为公开、后来被开发者更改为私有的存储库。这些存储库通常包含敏感信息，例如身份验证凭据、密钥或其他机密数据。尽管开发者已经将这些存储库设为私有，但它们的内容仍然可以通过 Copilot 访问。

AI 安全公司 Lasso 在 2024 年下半年首次发现了这一问题，并在 1 月份确认 Copilot 继续存储并提供这些私有存储库的内容。Lasso 将此问题追溯到微软 Bing 的缓存机制——当存储库公开时，Bing 对其进行了索引，即使后来存储库被设为私有或删除，缓存中的内容也未被清除。

Lasso 研究人员 Ophir Dror 和 Bar Lanyado 在一篇博客文章中描述了这些曾经公开、后被设为私有的存储库为“僵尸”存储库。他们指出：

“任何在 GitHub 上短暂公开过的数据都可能被 Copilot 等工具索引和暴露。我们对这些信息如此容易被访问感到震惊。”

为了评估问题的范围，Lasso 开发了一种自动化方法来识别这些“僵尸”存储库，并验证它们是否仍可通过 Copilot 访问。结果表明，Copilot 不仅可以访问这些存储库，还能提供原本已从 GitHub 删除的内容。

在 Lasso 于 11 月报告该问题后，微软引入了一些修复措施。这些措施切断了公众对 Bing 缓存页面的直接访问，但并未彻底清除缓存中的数据。因此，尽管普通用户无法再通过 Bing 查看这些内容，Copilot 仍然可以访问并提供这些数据。

Lasso 研究人员解释道：

“尽管 Bing 的缓存链接功能已被禁用，但缓存页面仍继续出现在搜索结果中。这表明修复只是一个临时补丁，虽然公共访问被阻止，但底层数据并未完全删除。”

此外，Lasso 发现，即使某些存储库因法律诉讼而从 GitHub 中删除，Copilot 依然能够提供这些存储库中的内容。这进一步证明了微软的修复措施并不彻底。

长期以来，开发人员经常将安全令牌、私有加密密钥等敏感信息嵌入代码中，然后将其推送到公共存储库。这种做法本身就存在安全隐患。然而，当这些存储库被设为私有时，许多人以为问题已经解决。Lasso 的研究揭示了一个残酷的事实：一旦数据被公开，就无法完全收回。

微软建议开发者始终将敏感存储库保持为私有状态，以避免内容被用于训练 AI 模型。然而，这种建议并不能解决已经发生的数据泄露问题。对于那些已经暴露的数据，唯一的解决方案是轮换所有受影响的凭据。但这仍然无法弥补其他类型敏感数据（如算法或专有工具）的损失。

针对这一事件，微软在一封电子邮件声明中表示：

“众所周知，大型语言模型通常在来自网络的公开可用信息上进行训练。如果用户希望避免使其内容公开可用于训练这些模型，我们鼓励他们始终保持其存储库私有。”

然而，这种声明并未完全解决问题，因为许多开发者可能并未意识到他们的公开存储库会被用于训练 AI 模型，或者他们可能无意中将敏感数据推送到公开存储库。

数据隐私的重要性：此次事件再次提醒我们，数据一旦公开，就很难完全收回。开发者需要更加谨慎地管理敏感信息，避免将其嵌入代码或推送到公共存储库。
AI 模型的透明性需求：大语言模型（LLM）的训练数据来源一直是一个争议话题。此次事件表明，AI 模型可能会无意中暴露用户的敏感数据，因此需要更高的透明性和更好的数据管理机制。
缓存清理的必要性：微软的 Bing 缓存机制显然存在问题，未能及时清除已设为私有的内容。未来，搜索引擎和 AI 工具需要更好地处理这类数据，确保用户隐私得到保护。