ChatGPT搜索功能疑似将用户提问暴露于谷歌搜索控制台

早报4周前发布 小马良
16 0

今年9月起,部分网站管理员在谷歌搜索控制台(Google Search Console, GSC)中发现异常的搜索查询记录——这些并非用户为查找信息输入的关键词,而是长达300字符以上的完整对话内容

这些文本包括:

  • 一位用户向AI倾诉:“他今天说‘你真可爱’,是认真的吗?还是只是客套?”
  • 一位企业管理者在构思内部通知时写道:“我们计划下周一恢复现场办公,但员工普遍抵触,如何措辞更温和?”

这些内容本应仅存在于用户与ChatGPT之间的私密对话中,却出现在GSC的“性能报告”中——一个本用于分析网站流量关键词、帮助开发者优化SEO的工具。

发现与调查

分析公司Quantable创始人杰森·帕克(Jason Parker)于10月初在博客中首次公开该现象。他注意到,这些异常查询的共同特征是:以 https://openai.com/index/chatgpt/ 开头

ChatGPT搜索功能疑似将用户提问暴露于谷歌搜索控制台

该URL被谷歌搜索引擎拆解为三个关键词:“openai”、“index”、“chatgpt”。因此,任何在谷歌搜索结果中排名靠前的网站,只要被收录了这些关键词,就可能在GSC中看到这些对话片段。

为验证来源,帕克与网络安全研究员斯洛博丹·马尼奇(Slobodan Manic)合作,进行可控测试。他们观察到:

  • 当ChatGPT判定需联网搜索时,系统会生成一个包含 hints=search 参数的临时页面;
  • 该页面的URL会被附加在用户原始提问前,形成完整字符串;
  • 这一字符串随后被谷歌爬虫抓取,并作为“搜索查询”记录在GSC中。

这意味着:

任何触发ChatGPT网络搜索的提问,都可能被拼接成一个包含原始输入的URL,并被谷歌索引,最终出现在GSC的查询日志里。

OpenAI与谷歌的回应

OpenAI承认“已知该问题”,并表示已修复“导致少量搜索查询路径异常的临时故障”。但未说明是否停止了将用户提问拼入URL的行为,也未回应是否存在其他类似机制。

ChatGPT搜索功能疑似将用户提问暴露于谷歌搜索控制台

谷歌方面拒绝置评。

帕克指出,OpenAI的回应模糊:

“它说‘修复了故障’,但没说‘是否还会发生’。我们不知道这是系统性设计,还是一个未被察觉的副作用。”

为何这比“索引泄露”更值得关注?

此前曾有报道称,ChatGPT会抓取谷歌搜索结果以增强回答能力。这属于模型训练数据层面的问题,用户无法直接控制。

而本次事件不同:

  • 用户无感知:他们只是在和AI聊天,没有主动搜索;
  • 无退出机制:GSC中的记录无法由用户删除,也无法被网站管理员清除;
  • 暴露范围不可控:任何使用谷歌搜索的第三方网站,只要匹配关键词,都可能看到这些内容。

帕克强调:“这不是用户主动公开对话,而是系统在后台构造了一个可能被公开的路径。”

技术机制简析

步骤行为
1用户向ChatGPT提问:“如何写一封温和的复工通知?”
2ChatGPT判断需联网搜索,触发 hints=search 参数
3系统生成临时URL:https://openai.com/index/chatgpt/?q=如何写一封温和的复工通知?
4谷歌爬虫抓取此URL,将其解析为搜索关键词
5该关键词被记录在GSC中,与网站流量数据一同展示

此机制未使用谷歌API,而是依赖常规网页抓取,因此绕过了API的权限控制与日志隔离机制。

风险与未解问题

  • 泄露规模未知:OpenAI称“仅少量查询受影响”,但未公布数据。7亿月活用户中,有多少人触发了搜索?无法验证。
  • 修复是否彻底? OpenAI是否只是关闭了URL拼接,还是完全禁用了该行为?目前无公开证据。
  • 是否为设计? 这是否是为提升搜索相关性而有意为之?还是开发过程中的疏漏?OpenAI未回应。
  • 长期影响:如果用户知道自己的对话可能被搜索引擎记录,是否还会继续使用?信任成本正在积累。

附:用户建议

行为建议
使用ChatGPT处理敏感内容避免触发网络搜索(如:不问“最新政策是什么?”)
企业用户禁用ChatGPT的联网功能,或使用离线模型
网站管理员检查GSC中的“搜索查询”日志,若发现长文本异常,可记录并反馈
开发者关注OpenAI官方文档是否更新搜索行为说明
© 版权声明

相关文章

暂无评论

none
暂无评论...