如何从 Google 索引中删除敏感客户数据

已发表: 2023-08-07

更好的关键词排名。 更多流量。 来自有机搜索的额外转化。 这些是用于衡量 SEO 绩效的 KPI。

但除了增长指标之外,一些顾问或机构在管理客户的 SEO 活动时忽视了一个关键因素:

防止机密客户内容出现在 Google 搜索结果中。

如果被忽视,这可能会导致违反信任或昂贵的诉讼,最终可能结束客户关系。

如果您知道客户数据可以多么轻松地进入 Google 索引以及如何避免它,那么所有这一切都不会发生。

揭示许多 SEO 忽略的关键搜索索引问题、Google 上客户数据的意外暴露以及对此类内容取消索引的方法。

我如何找到敏感数据

我是一名全职独立 SEO 顾问,自 2018 年以来一直与多家中型公司合作,十多年来一直在改进有机搜索结果。

在进行技术 SEO 审核时,我使用 Google 上的站点搜索运算符(输入 site:domain.com)来检查结果。 在这里,我可以快速查看网站名称、标题、URL 和片段在不同页面类别中的外观。

我还注意到索引内容的模式,可能会向运算符附加关键字,以便在需要时获得更具体的信息。

对于大多数客户来说,我有时会注意到开发/测试/登台网站被编入索引,内容稀薄会稀释链接资产或损害爬行效率(或导致关键字蚕食)以及不打算排名的付费着陆页。

不过,我已经开始以惊人的频率发现 SaaS 客户端特有的东西:

通常在营销或产品团队中没有人考虑过的子域下的页面会被索引。

最无害的是自定义其登录体验的客户子域(例如client.example.com )。

即使在这里,客户也可能不希望自己的名字出现在搜索结果中。 根据您的产品,这可能会向竞争对手揭示差异化因素或弱点。

在更严重的情况下,可以找到包含(来自特定人员)收集的数据的基于网络的表格。

在最坏的情况下(并且使用正确的搜索查询),由于缺乏密码保护,甚至可以访问和更改表单字段。

虽然与通过自然搜索实现增长无关,但我很快就指出了这些。 对我来说,很明显,这里可能存在很大的风险。

至少在某些情况下,这成为了一个“全员齐心协力”的问题,因为我被要求以更快的速度从搜索结果中获取这些数据。

一位首席执行官提到,他的安全顾问从未提到过这种可能性。 通过大多数 SEO 审核中执行的基本步骤很快就能发现这一点。

公平地说,几乎总是需要进行不寻常的搜索才能找到此类页面。

然而,请考虑一下客户(甚至可能是您的领导团队)会进行的奇怪搜索,更不用说竞争对手了。 (永远不要忘记一项持久的统计数据:Google 上 15% 的搜索查询是独一无二的!)

即使不是法律问题,客户首先发现的搜索结果中的敏感数据仍然可能损害你们的关系。


获取搜索营销人员信赖的每日新闻通讯。

正在处理...请稍候。

查看条款。


为什么这些数据甚至出现在 Google 上?

只需一个不显眼的链接即可从搜索引擎访问的任何资源(无论在网络上的任何位置)指向页面:

  • 该页面是否列在您的 XML 站点地图中,即使它没有链接到您的站点上?
  • 您的网站上是否曾经有过引用,或者 JavaScript 中没有注意到的内容?
  • 通常情况下,客户会链接到该页面,但它仅供特定人群查看,例如调查参与者,而不是公众。

值得庆幸的是,意识是成功的一半以上。 一旦您知道要从搜索中删除的页面,您就可以从 Google 开始快速启动更正过程。

如何快速对 Google 中的内容取消索引

查找 Google 搜索结果中显示的包含敏感数据的网址模式

例如,通常有一个名为 data.example.com 的子域,其中包含 SaaS 产品的基于 Web 的版本。 您可以使用站点搜索运算符来扫描结果页面。

使用 Google Search Console (GSC) 中的页面索引报告查看所有已索引的网址

这可能并不能显示一切。 联系您的产品团队可能会有所帮助,因为他们可能能够更快、更准确地提供您所需的一切。

页面索引报告

仔细检查您的网址

如果可能的话,或者至少在 GSC 中对每个 URL 使用 URL 检查工具进行确认,以防您找到的链接不再位于这些位置。

页面索引报告

要查找违规页面,请考虑所有可能针对您在搜索结果中看到的内容进行规范化的 URL 版本。

删除规范 URL 后,替代版本可能会被索引。

应用模式(新请求下的第二个单选按钮)(可能是子域),或者通过在 GSC 删除工具中发出新请求来列出每个 URL。

GSC 移除

对于有限的一组页面,应用此步骤后使用 URL 检查工具可能会加快删除速度,并且还可以确认最新状态。 这必须一次完成一个。 (虽然不是 Google 那样的巨头,但至少在今天,您也应该在 Microsoft Bing 的 Block URL 工具中执行此操作。)

GSC - 临时搬迁

通过采取这些步骤,从 Google 索引中删除的时间只会持续六个月。

它不会永远阻止该问题或在其他搜索引擎上发生,因此您需要执行下面的最后一步。

如何从 Google 永久删除内容

这里可以使用两种方法:

1. 在这些页面的头部使用 noindex 元机器人标签

您应该让 Web 开发人员将其添加到页面模板中,以便在所有页面上复制它。

  • 对于 PDF、图像和其他非 HTML 内容,您可以添加值为 noindex/none 的 X-Robots-Tag HTTP 标头。 这对于常规 HTML 页面也有效,但实现速度不那么快。

注意:不要使用 robots.txt 禁止规则(图像除外),该规则仅在首先没有问题的情况下才有效。 A disallow 会阻止爬行,但不会阻止索引。

2. 控制内容

使用密码保护您的网页或文件将确保只有授权用户才能访问它们。 这也是阻止您的内容出现在 Google 上的另一种方法。

防止敏感内容出现在搜索结果中

采取其中一个步骤后,您可以放心,包含敏感客户数据的页面将被删除,并且不会重新进入 Google 索引,大多数情况下,页面会在一天内删除。

您应该真诚地告诉客户到底发生了什么。 请记住,网络上没有任何东西会完全消失。


本文表达的观点是客座作者的观点,并不一定是搜索引擎土地的观点。 此处列出了工作人员作者。