Google のインデックスからクライアントの機密データを削除する方法

公開: 2023-08-07

キーワードランキングの向上。 交通量が増える。 オーガニック検索からの追加のコンバージョン。 これらは SEO のパフォーマンスを測定するために使用される KPI です。

しかし、成長指標以外にも、一部のコンサルタントや代理店がクライアントの SEO キャンペーンを管理する際に見落としている重要な要素があります。

クライアントの機密コンテンツが Google 検索結果に表示されないようにする。

これを無視すると、最終的には顧客との関係を終わらせる信頼違反や多額の費用がかかる訴訟につながる可能性があります。

クライアントのデータがいかに簡単に Google のインデックスに入るのか、そしてそれを回避する方法を知っていれば、こうしたことはすべて起こる必要はありません。

多くの SEO が見逃している重要な検索インデックスの問題、Google でのクライアント データの誤った公開、およびそのようなコンテンツのインデックスを解除する方法を明らかにします。

機密データを見つけた方法

私はフルタイムの独立系 SEO コンサルタントで、2018 年からさまざまな中堅企業と提携し、10 年以上オーガニック検索結果を改善してきました。

技術的な SEO 監査を行うとき、私は Google でサイト検索演算子 (site:domain.com と入力) を使用して結果を確認します。 ここでは、サイト名、タイトル、URL、スニペットがさまざまなページ カテゴリでどのように表示されるかをすぐに確認できます。

また、必要に応じてより具体的にするために演算子にキーワードを追加することで、インデックスが作成されるパターンにも気づきました。

ほとんどのクライアントでは、開発/テスト/ステージング サイトがインデックスに登録されたり、内容の薄いコンテンツがリンク エクイティを薄めたり、クロールの効率を損なったり (またはキーワードのカニバリゼーションにつながったり)、ランク付けすることを意図していない有料のランディング ページに気づくことがあります。

しかし、私は SaaS クライアントに特有の何かを驚くべき頻度で検出し始めています。

通常、マーケティング チームでも製品チームでも誰も考えたことのないサブドメインにあるページがインデックスに登録されます。

最も無害なのは、ログイン エクスペリエンスをカスタマイズする顧客のサブドメイン (例: client.example.com ) です。

ここでも、クライアントは自分の名前が検索結果に表示されることを望まない場合があります。 製品によっては、これにより競合他社に対する差別化要因や脆弱性が明らかになる可能性があります。

はるかに深刻なケースでは、(特定の人から) 収集されたデータを含む Web ベースのフォームが見つかる可能性があります。

最悪の場合 (検索クエリが適切であった場合)、パスワード保護がないためにフォーム フィールドにさえアクセスされ、変更される可能性があります。

オーガニック検索による成長とは関係ありませんが、これらを簡単に指摘します。 ここで多くのことが危険にさらされている可能性があることは私には明らかでした。

少なくともいくつかのケースでは、このデータをできるだけ早く検索結果から取得するように求められるという点で、これは「全員が協力する」問題になりました。

ある CEO は、セキュリティ コンサルタントがこの可能性について決して言及していないと述べました。 これは、ほとんどの SEO が監査で行う基本的な手順を通じてすぐに発見されました。

公平を期すために言うと、この種のページを見つけるには、ほとんどの場合、通常とは異なる検索が必要です。

しかし、ライバルは言うに及ばず、クライアント、場合によっては経営陣が入力するであろう奇妙な検索について考えてみましょう。 (Google の検索クエリの 15% がユニークであるという永続的な統計を決して忘れないでください。)

法的な問題ではないとしても、クライアントが最初に見つけた検索結果内の機密データは、依然として関係を損なう可能性があります。


マーケティング担当者が頼りにする毎日のニュースレター検索を入手します。

処理中…お待ちください。

規約を参照してください。


なぜこのデータが Google に掲載されているのでしょうか?

Web 上のどこにいても、検索エンジンがアクセスするリソースからページへの目立たないリンクが 1 つあれば十分です。

  • サイトにリンクされていない場合でも、そのページは XML サイトマップにリストされていますか?
  • 過去にサイトに参照があった可能性や、JavaScript では気づかれない何かがあった可能性はありますか?
  • 多くの場合、クライアントはそのページにリンクしますが、それはアンケート参加者などの特定の人のみが閲覧することを目的としており、一般の人々が閲覧することは意図されていません。

ありがたいことに、ここでは意識が戦いの半分以上を占めます。 検索から削除するページがわかったら、Google を使って修正プロセスをすぐに開始できます。

Google でコンテンツのインデックスを迅速に解除する方法

Google の検索結果に表示される機密データを含む URL のパターンを見つける

たとえば、SaaS 製品の Web ベース バージョンを収容する data.example.com というサブドメインがあることが一般的です。 サイト検索演算子を使用して、結果ページをスキャンできます。

Google Search Console (GSC) のページ インデックス レポートを使用して、インデックスに登録されたすべての URL を表示します

これではすべてが表示されない可能性があります。 この件について製品チームに連絡すると、必要なものすべてをより迅速かつ正確に提供できる可能性があります。

ページインデックス作成レポート

URLを再確認してください

見つかったリンクがその場所に存在しない場合に備えて、可能であれば GSC のすべての URL または少なくともサンプルに対して URL 検査ツールを使用して確認します。

ページインデックス作成レポート

問題のあるページを見つけるには、検索結果に表示されるものに対して正規化される可能性のあるすべての URL バージョンを考慮します。

正規 URL が削除されると、代替バージョンがインデックスに登録される可能性があります。

GSC 削除ツールで新しいリクエストを作成して、パターン ( [新しいリクエスト]の下の 2 番目のラジオ ボタン) (おそらくサブドメイン) を適用するか、すべての URL をリストします。

GSC の削除

限られたページの場合、この手順を適用した後で URL 検査ツールを使用すると、削除が迅速化され、最新のステータスも確認できる可能性があります。 これは一度に 1 つずつ実行する必要があります。 (Google はそれほど巨大ではありませんが、少なくとも今日では、Microsoft Bing の URL ブロック ツールでもこれを行う必要があります。)

GSC - 一時的な削除

これらの措置を講じることにより、Google のインデックスからの削除は 6 か月しか続かなくなります。

この問題を永久に防止したり、他の検索エンジンでの発生を防ぐことはできないため、以下の最後の手順を実行する必要があります。

Google からコンテンツを完全に削除する方法

ここでは 2 つの方法が機能します。

1. これらのページの head セクションで noindex メタ ロボット タグを使用します。

すべてのページに複製するには、Web 開発者にこれをページ テンプレートに追加してもらう必要があります。

  • PDF、画像、およびその他の非 HTML コンテンツの場合は、noindex/none のいずれかの値を持つ X-Robots-Tag HTTP ヘッダーを追加できます。 これは通常の HTML ページにも有効ですが、実装はそれほど速くありません。

注: robots.txt の禁止ルール (画像の例外) は使用しないでください。これは、そもそも問題がない場合にのみ機能します。 禁止すると、クロールはブロックされますが、インデックス作成はブロックされません。

2. コンテンツをゲートする

Web ページやファイルをパスワードで保護すると、許可されたユーザーのみがそれらにアクセスできるようになります。 これは、コンテンツが Google に表示されないようにブロックするもう 1 つの方法でもあります。

機密性の高いコンテンツが検索結果に表示されないようにする

これらの手順のいずれかを実行すると、クライアントの機密データを含むページは削除され、Google のインデックスに再登録されることはなくなります。ほとんどの場合、ページは 1 日以内に削除されます。

誠意を持って、何が起こったのかをクライアントに正確に伝える必要があります。 ウェブ上で完全に消えるものは何もないということを覚えておいてください。


この記事で表明された意見はゲスト著者の意見であり、必ずしも Search Engine Land とは限りません。 スタッフの著者はここにリストされています。