如何從 Google 索引中刪除敏感客戶數據

已發表: 2023-08-07

更好的關鍵詞排名。 更多流量。 來自有機搜索的額外轉化。 這些是用於衡量 SEO 績效的 KPI。

但除了增長指標之外,一些顧問或機構在管理客戶的 SEO 活動時忽視了一個關鍵因素:

防止機密客戶內容出現在 Google 搜索結果中。

如果被忽視,這可能會導致違反信任或昂貴的訴訟,最終可能結束客戶關係。

如果您知道客戶數據可以多麼輕鬆地進入 Google 索引以及如何避免它,那麼所有這一切都不會發生。

揭示許多 SEO 忽略的關鍵搜索索引問題、Google 上客戶數據的意外暴露以及對此類內容取消索引的方法。

我如何找到敏感數據

我是一名全職獨立 SEO 顧問,自 2018 年以來一直與多家中型公司合作,十多年來一直在改進有機搜索結果。

在進行技術 SEO 審核時,我使用 Google 上的站點搜索運算符(輸入 site:domain.com)來檢查結果。 在這裡,我可以快速查看網站名稱、標題、URL 和片段在不同頁麵類別中的外觀。

我還注意到索引內容的模式,可能會向運算符附加關鍵字以便在需要時獲得更具體的信息。

對於大多數客戶來說,我有時會注意到開發/測試/登台網站被編入索引,內容稀薄會稀釋鏈接資產或損害爬行效率(或導致關鍵字蠶食)以及不打算排名的付費著陸頁。

不過,我已經開始以驚人的頻率發現 SaaS 客戶端特有的東西:

通常在營銷或產品團隊中沒有人考慮過的子域下的頁面會被索引。

最無害的是自定義其登錄體驗的客戶子域(例如client.example.com )。

即使在這裡,客戶也可能不希望自己的名字出現在搜索結果中。 根據您的產品,這可能會向競爭對手揭示差異化優勢或弱點。

在更嚴重的情況下,可以找到包含(來自特定人員)收集的數據的基於網絡的表格。

在最壞的情況下(並且使用正確的搜索查詢),由於缺乏密碼保護,甚至可以訪問和更改表單字段。

雖然與通過自然搜索實現增長無關,但我很快就指出了這些。 對我來說,很明顯,這裡可能存在很大的風險。

至少在某些情況下,這成為了一個“全員齊心協力”的問題,因為我被要求以更快的速度從搜索結果中獲取這些數據。

一位首席執行官提到,他的安全顧問從未提到過這種可能性。 通過大多數 SEO 審核中執行的基本步驟很快就能發現這一點。

公平地說,幾乎總是需要進行不尋常的搜索才能找到此類頁面。

然而,請考慮一下客戶(甚至可能是您的領導團隊)會進行的奇怪搜索,更不用說競爭對手了。 (永遠不要忘記一項持久的統計數據:Google 上 15% 的搜索查詢是獨一無二的!)

即使不是法律問題,客戶首先發現的搜索結果中的敏感數據仍然可能損害你們的關係。


獲取搜索營銷人員信賴的每日新聞通訊。

正在處理...請稍候。

查看條款。


為什麼這些數據甚至出現在 Google 上?

只需一個不顯眼的鏈接即可從搜索引擎訪問的任何資源(無論在網絡上的任何位置)指向頁面:

  • 該頁面是否列在您的 XML 站點地圖中,即使它沒有鏈接到您的站點上?
  • 您的網站上是否曾經有過引用,或者 JavaScript 中沒有註意到的內容?
  • 通常情況下,客戶會鏈接到該頁面,但它僅供特定人群查看,例如調查參與者,而不是公眾。

值得慶幸的是,意識是成功的一半以上。 一旦您知道要從搜索中刪除的頁面,您就可以從 Google 開始快速啟動更正過程。

如何快速對 Google 中的內容取消索引

查找 Google 搜索結果中顯示的包含敏感數據的網址模式

例如,通常有一個名為 data.example.com 的子域,其中包含 SaaS 產品的基於 Web 的版本。 您可以使用站點搜索運算符來掃描結果頁面。

使用 Google Search Console (GSC) 中的頁面索引報告查看所有已索引的網址

這可能並不能顯示一切。 聯繫您的產品團隊可能會有所幫助,因為他們可能能夠更快、更準確地提供您所需的一切。

頁面索引報告

仔細檢查您的網址

如果可能的話,或者至少在 GSC 中對每個 URL 使用 URL 檢查工具進行確認,以防您找到的鏈接不再位於這些位置。

頁面索引報告

要查找違規頁面,請考慮所有可能針對您在搜索結果中看到的內容進行規範化的 URL 版本。

刪除規範 URL 後,替代版本可能會被索引。

應用模式(新請求下的第二個單選按鈕)(可能是子域),或者通過在 GSC 刪除工具中發出新請求來列出每個 URL。

GSC 移除

對於有限的一組頁面,應用此步驟後使用 URL 檢查工具可能會加快刪除速度,並且還可以確認最新狀態。 這必須一次完成一個。 (雖然不是 Google 那樣的巨頭,但至少在今天,您也應該在 Microsoft Bing 的 Block URL 工具中執行此操作。)

GSC - 臨時搬遷

通過採取這些步驟,從 Google 索引中刪除的時間只會持續六個月。

它不會永遠阻止該問題或在其他搜索引擎上發生,因此您需要執行下面的最後一步。

如何從 Google 永久刪除內容

這裡可以使用兩種方法:

1. 在這些頁面的頭部使用 noindex 元機器人標籤

您應該讓 Web 開發人員將其添加到頁面模板中,以便在所有頁面上複製它。

  • 對於 PDF、圖像和其他非 HTML 內容,您可以添加值為 noindex/none 的 X-Robots-Tag HTTP 標頭。 這對於常規 HTML 頁面也有效,但實現速度不那麼快。

注意:不要使用 robots.txt 禁止規則(圖像除外),該規則僅在首先沒有問題的情況下才有效。 A disallow 會阻止爬行,但不會阻止索引。

2. 控制內容

使用密碼保護您的網頁或文件將確保只有授權用戶才能訪問它們。 這也是阻止您的內容出現在 Google 上的另一種方法。

防止敏感內容出現在搜索結果中

採取其中一個步驟後,您可以放心,包含敏感客戶數據的頁面將被刪除,並且不會重新進入 Google 索引,大多數情況下,頁面會在一天內刪除。

您應該真誠地告訴客戶到底發生了什麼。 請記住,網絡上沒有任何東西會完全消失。


本文表達的觀點是客座作者的觀點,並不一定是搜索引擎土地的觀點。 此處列出了工作人員作者。