Comment supprimer les données client sensibles de l'index de Google

Publié: 2023-08-07

Meilleur classement des mots clés. Plus de trafic. Conversions supplémentaires à partir de la recherche organique. Ce sont les KPI utilisés pour mesurer les performances SEO.

Mais au-delà des mesures de croissance, il existe un élément clé que certains consultants ou agences négligent lors de la gestion des campagnes SEO d'un client :

Empêcher le contenu confidentiel des clients d'apparaître dans les résultats de recherche Google.

S'il est négligé, cela peut entraîner un abus de confiance ou des litiges coûteux qui peuvent finalement mettre fin à une relation client.

Tout cela n'est pas nécessaire si vous savez avec quelle facilité les données des clients peuvent entrer dans l'index de Google et comment l'éviter.

Découvrez le problème critique d'indexation de recherche que de nombreux référenceurs manquent, l'exposition accidentelle des données des clients sur Google et les moyens de désindexer ce contenu.

Comment j'ai trouvé des données sensibles

Je suis un consultant SEO indépendant à temps plein qui s'est associé à diverses entreprises de taille moyenne depuis 2018, ayant amélioré les résultats de recherche organiques pendant plus de 10 ans.

Lors d'un audit SEO technique, j'utilise un opérateur de recherche de site (en entrant site:domain.com) sur Google pour vérifier les résultats. Ici, je peux voir rapidement à quoi ressemblent les noms de sites, les titres, les URL et les extraits dans différentes catégories de pages.

Je remarque également des modèles de ce qui est indexé, peut-être en ajoutant des mots-clés à l'opérateur pour être plus précis en cas de besoin.

Pour la plupart des clients, je remarque parfois que les sites de développement/test/staging sont indexés, que le contenu léger dilue l'équité des liens ou nuit à l'efficacité de l'exploration (ou conduit à la cannibalisation des mots clés) et que les pages de destination payantes ne sont pas censées se classer.

J'ai commencé à détecter, cependant, avec une fréquence alarmante, quelque chose d'unique aux clients SaaS :

Pages généralement sous des sous-domaines auxquels personne ne pense jamais - que ce soit dans les équipes marketing ou produit - indexées.

Les plus anodins sont les sous-domaines des clients qui personnalisent leur expérience de connexion (par exemple, client.example.com ).

Même ici, un client peut ne pas souhaiter que son nom figure dans les résultats de recherche. Selon votre produit, cela pourrait révéler un différenciateur ou une vulnérabilité vis-à-vis des concurrents.

Dans des cas beaucoup plus graves, des formulaires Web contenant des données collectées (auprès de personnes spécifiques) pouvaient être trouvés.

Dans le pire des cas (et avec la bonne requête de recherche), même les champs de formulaire pourraient être consultés et modifiés en raison d'un manque de protection par mot de passe.

Bien que cela ne soit pas lié à la croissance par la recherche organique, je m'empresse de les souligner. Il me semblait évident que beaucoup pouvait être en jeu ici.

Dans au moins plusieurs cas, cela est devenu un problème «tout le monde sur le pont» en ce sens qu'on m'a demandé d'extraire ces données des résultats de recherche plus rapidement que possible.

Un PDG a mentionné que ses consultants en sécurité n'avaient jamais mentionné cette possibilité. Cela a été rapidement trouvé grâce à une étape de base que la plupart des référenceurs feraient lors d'un audit.

Pour être juste, cela nécessite presque toujours une recherche inhabituelle pour trouver ce type de pages.

Pourtant, considérez les recherches étranges que les clients, peut-être même votre équipe de direction, entreraient - sans parler des rivaux. (N'oubliez jamais la statistique persistante selon laquelle 15 % des requêtes de recherche sur Google sont uniques !)

Même s'il ne s'agit pas d'un problème juridique, les données sensibles dans les résultats de recherche trouvés par les clients en premier peuvent toujours nuire à votre relation.


Recevez la newsletter quotidienne sur laquelle les spécialistes du marketing de recherche comptent.

Traitement… Veuillez patienter.

Voir conditions.


Pourquoi ces données sont-elles même sur Google ?

Un lien unique et discret vers une page à partir de n'importe quelle ressource accessible par les moteurs de recherche, n'importe où sur le Web, suffit :

  • La page est-elle répertoriée dans votre plan de site XML, même si elle n'est pas liée sur votre site ?
  • Pourrait-il y avoir eu une référence sur votre site dans le passé ou quelque chose qui passe inaperçu en JavaScript ?
  • Le plus souvent, le client établit un lien vers la page, mais elle n'est destinée qu'à des personnes spécifiques, comme les participants à l'enquête, et non au grand public.

Heureusement, la sensibilisation représente plus de la moitié de la bataille ici. Une fois que vous connaissez les pages à supprimer de la recherche, vous pouvez rapidement lancer le processus de correction, en commençant par Google.

Comment désindexer rapidement du contenu dans Google

Trouver un modèle pour les URL contenant des données sensibles affichées dans les résultats de recherche Google

Par exemple, il est courant d'avoir un sous-domaine intitulé data.example.com qui héberge la version Web de votre produit SaaS. Vous pouvez utiliser l'opérateur de recherche de site pour scanner les pages de résultats.

Utilisez le rapport d'indexation des pages dans Google Search Console (GSC) pour afficher toutes les URL indexées

Cela peut ne pas tout montrer. Il peut être utile de contacter votre équipe produit à ce sujet, car elle pourra peut-être vous fournir tout ce dont vous avez besoin plus rapidement et avec plus de précision.

Rapport d'indexation des pages

Revérifiez vos URL

Confirmez en utilisant l'outil d'inspection d'URL pour chaque URL, si possible ou au moins un échantillon, dans GSC au cas où les liens que vous avez trouvés ne se trouvent plus à ces emplacements.

Rapport d'indexation des pages

Pour trouver les pages incriminées, considérez toutes les versions d'URL qui peuvent être canonisées vers ce que vous voyez dans les résultats de recherche.

Une fois l'URL canonique supprimée, les versions alternatives peuvent être indexées.

Appliquez le modèle (le deuxième bouton radio sous Nouvelle demande ), probablement un sous-domaine, ou répertoriez chaque URL en faisant une nouvelle demande dans l'outil de suppression GSC.

Suppressions de GSC

Pour un ensemble limité de pages, l'utilisation de l'outil d'inspection d'URL une fois cette étape appliquée peut accélérer la suppression et peut également confirmer le dernier état. Cela doit être fait un à la fois. (Bien que Google ne soit pas le géant qu'est Google, du moins aujourd'hui, vous devriez également le faire dans l'outil Block URL de Microsoft Bing.)

GSC - Déménagements temporaires

En prenant ces mesures, la suppression de l'index de Google ne durera que six mois.

Cela n'empêchera pas le problème pour toujours ou de se produire sur d'autres moteurs de recherche, vous devrez donc suivre une dernière étape ci-dessous.

Comment supprimer définitivement du contenu de Google

Deux méthodes peuvent fonctionner ici :

1. Utilisez une balise meta robots noindex dans la section head de ces pages

Vous devriez demander à vos développeurs Web de l'ajouter au modèle de page pour le répliquer sur toutes les pages.

  • Pour les PDF, les images et tout autre contenu non HTML, vous pouvez ajouter un en-tête HTTP X-Robots-Tag avec une valeur de noindex/none. Ceci est également valable pour les pages HTML classiques mais pas aussi rapide à mettre en œuvre.

Remarque : N'utilisez pas les règles d'interdiction de robots.txt (exception pour les images), qui ne fonctionnent que s'il n'y a pas de problème en premier lieu. Une interdiction bloque l'exploration mais pas l'indexation.

2. Validez le contenu

La protection par mot de passe de vos pages Web ou de vos fichiers garantit que seuls les utilisateurs autorisés peuvent y accéder. C'est également un autre moyen d'empêcher votre contenu d'apparaître sur Google.

Empêcher le contenu sensible d'apparaître dans les résultats de recherche

Après avoir suivi l'une de ces étapes, vous pouvez être assuré que les pages contenant des données client sensibles seront supprimées et ne réintégreront pas l'index de Google, avec des pages supprimées dans la journée, dans la plupart des cas.

En toute bonne foi, vous devez dire exactement à vos clients ce qui s'est passé. N'oubliez pas que rien ne disparaît jamais complètement sur le Web.


Les opinions exprimées dans cet article sont celles de l'auteur invité et pas nécessairement Search Engine Land. Les auteurs du personnel sont répertoriés ici.