Come rimuovere i dati sensibili dei clienti dall'indice di Google
Pubblicato: 2023-08-07Migliore posizionamento delle parole chiave. Più traffico. Conversioni extra dalla ricerca organica. Questi sono i KPI utilizzati per misurare le prestazioni SEO.
Ma al di là delle metriche di crescita, c'è un elemento chiave che alcuni consulenti o agenzie trascurano quando gestiscono le campagne SEO di un cliente:
Impedire la visualizzazione di contenuti riservati dei clienti nei risultati di ricerca di Google.
Se trascurato, ciò potrebbe comportare una violazione della fiducia o un costoso contenzioso che alla fine può porre fine a una relazione con il cliente.
Tutto questo non deve accadere se sai con quanta facilità i dati dei clienti possono entrare nell'indice di Google e come evitarlo.
Scopri il problema critico dell'indicizzazione della ricerca che molti SEO ignorano, l'esposizione accidentale dei dati dei clienti su Google e i modi per deindicizzare tali contenuti.
Come ho trovato i dati sensibili
Sono un consulente SEO indipendente a tempo pieno che ha collaborato con varie aziende di medie dimensioni dal 2018, avendo migliorato i risultati di ricerca organici per oltre 10 anni.
Quando eseguo un audit SEO tecnico, utilizzo un operatore di ricerca del sito (inserendo site:domain.com) su Google per controllare i risultati. Qui posso vedere rapidamente come appaiono i nomi dei siti, i titoli, gli URL e gli snippet nelle diverse categorie di pagine.
Noto anche schemi di ciò che viene indicizzato, magari aggiungendo parole chiave all'operatore per essere più specifico quando necessario.
Per la maggior parte dei clienti, a volte noterò siti di sviluppo/test/staging che vengono indicizzati, contenuti sottili che diluiscono l'equità del collegamento o danneggiano l'efficacia della scansione (o portano alla cannibalizzazione delle parole chiave) e pagine di destinazione a pagamento che non sono destinate al posizionamento.
Ho iniziato a rilevare, tuttavia, con una frequenza allarmante, qualcosa di unico per i client SaaS:
Pagine in genere sottodomini a cui nessuno pensa mai, né nei team di marketing né in quelli di prodotto, di essere indicizzate.
I più innocui sono i sottodomini dei clienti che personalizzano la loro esperienza di accesso (ad es. client.example.com
).
Anche qui, un cliente potrebbe non voler vedere il proprio nome nei risultati di ricerca. A seconda del tuo prodotto, questo potrebbe rivelare un elemento di differenziazione o vulnerabilità per i concorrenti.
In casi molto più gravi, potrebbero essere trovati moduli basati sul web con dati raccolti (da persone specifiche).
Nei casi peggiori (e con la query di ricerca corretta), è possibile accedere e modificare anche i campi del modulo a causa della mancanza di protezione tramite password.
Sebbene non sia correlato alla crescita attraverso la ricerca organica, sono pronto a segnalarli. Mi sembrava ovvio che qui potesse esserci molto in gioco.
In almeno diversi casi, questo è diventato un problema "tutto pratico" in quanto mi è stato chiesto di estrarre questi dati dai risultati di ricerca più velocemente del prima possibile.
Un CEO ha affermato che i suoi consulenti per la sicurezza non hanno mai menzionato questa possibilità. Questo è stato rapidamente trovato attraverso un passaggio fondamentale che la maggior parte dei SEO farebbe in un audit.
Ad essere onesti, è quasi sempre necessaria una ricerca insolita per trovare questo tipo di pagine.
Tuttavia, considera le strane ricerche in cui i clienti, forse anche il tuo gruppo dirigente, entrerebbero, per non parlare dei rivali. (Non dimenticare mai la statistica duratura secondo cui il 15% delle query di ricerca su Google sono uniche!)
Anche se non è un problema legale, i dati sensibili nei risultati di ricerca trovati prima dai clienti potrebbero comunque danneggiare la tua relazione.
Ottieni la newsletter quotidiana su cui si affidano i marketer di ricerca.
Vedi termini.
Perché questi dati sono anche su Google?
Un singolo link poco appariscente a una pagina da qualsiasi risorsa a cui accedono i motori di ricerca, ovunque sul Web, è tutto ciò che serve:
- La pagina è elencata nella tua sitemap XML, anche se non è collegata al tuo sito?
- Potrebbe esserci stato un riferimento sul tuo sito in passato o qualcosa che passa inosservato in JavaScript?
- Il più delle volte, il cliente si collega alla pagina, ma è destinata solo a persone specifiche, come i partecipanti al sondaggio, non al pubblico in generale.
Per fortuna, la consapevolezza è più della metà della battaglia qui. Una volta che conosci le pagine da rimuovere dalla ricerca, puoi avviare rapidamente il processo di correzione, a partire da Google.
Come deindicizzare rapidamente i contenuti in Google
Trova un pattern per gli URL con dati sensibili mostrati nei risultati di ricerca di Google
Ad esempio, è comune avere un sottodominio denominato data.example.com che ospita la versione basata sul Web del tuo prodotto SaaS. È possibile utilizzare l'operatore di ricerca del sito per scansionare le pagine dei risultati.
Utilizza il rapporto Indicizzazione pagina in Google Search Console (GSC) per visualizzare tutti gli URL indicizzati
Questo potrebbe non mostrare tutto. Contattare il tuo team di prodotto in merito a questo potrebbe essere d'aiuto, in quanto potrebbero essere in grado di fornire tutto ciò di cui hai bisogno in modo più rapido e accurato.
Ricontrolla i tuoi URL
Conferma utilizzando lo strumento Controllo URL per ogni URL, se possibile o almeno un campione, in GSC nel caso in cui i link che hai trovato non siano più in quelle posizioni.
Per trovare le pagine offensive, considera tutte le versioni di URL che potrebbero essere canonizzate rispetto a ciò che vedi nei risultati di ricerca.
Con l'URL canonico rimosso, le versioni alternative potrebbero essere indicizzate.
Applica il pattern (il secondo pulsante di opzione sotto New Request ), probabilmente un sottodominio, oppure elenca tutti gli URL effettuando una nuova richiesta nello strumento GSC Removals.
Per un insieme limitato di pagine, l'utilizzo dello strumento Controllo URL una volta applicato questo passaggio può accelerare la rimozione e può anche confermare lo stato più recente. Questo deve essere fatto uno alla volta. (Sebbene non sia il gigante che Google è, almeno oggi, dovresti farlo anche nello strumento Block URL di Microsoft Bing.)
Seguendo questi passaggi, la rimozione dall'indice di Google durerà solo sei mesi.
Non impedirà per sempre il problema o si verificherà su altri motori di ricerca, quindi dovrai eseguire un passaggio finale di seguito.
Come rimuovere i contenuti da Google in modo permanente
Due metodi possono funzionare qui:
1. Utilizza un tag meta robots noindex nella sezione head di quelle pagine
Dovresti chiedere ai tuoi sviluppatori web di aggiungerlo al modello di pagina per replicarlo su tutte le pagine.
- Per PDF, immagini e altri contenuti non HTML, puoi aggiungere un'intestazione HTTP X-Robots-Tag con un valore noindex/none. Questo è valido anche per le normali pagine HTML ma non così veloce da implementare.
Nota: non utilizzare le regole di disallow di robots.txt (eccezione per le immagini), che funzionano solo se non ci sono problemi in primo luogo. Un disallow blocca la scansione ma non l'indicizzazione.
2. Gate il contenuto
La protezione con password delle tue pagine web o dei tuoi file garantirà che solo gli utenti autorizzati possano accedervi. Questo è anche un altro modo per bloccare la visualizzazione dei tuoi contenuti su Google.
Impedire la visualizzazione di contenuti sensibili nei risultati di ricerca
Dopo aver eseguito uno di questi passaggi, puoi essere certo che le pagine con dati sensibili dei clienti verranno rimosse e non rientreranno nell'indice di Google, con le pagine rimosse entro un giorno, nella maggior parte dei casi.
In buona fede, dovresti dire ai tuoi clienti esattamente cosa è successo. Ricorda solo che nulla scompare mai completamente sul web.
Le opinioni espresse in questo articolo sono quelle dell'autore ospite e non necessariamente Search Engine Land. Gli autori dello staff sono elencati qui.