Como remover dados confidenciais de clientes do índice do Google

Publicados: 2023-08-07

Melhores classificações de palavras-chave. Mais tráfego. Conversões extras da pesquisa orgânica. Estes são os KPIs usados ​​para medir o desempenho de SEO.

Mas, além das métricas de crescimento, há um elemento-chave que alguns consultores ou agências ignoram ao gerenciar as campanhas de SEO de um cliente:

Impedir que o conteúdo confidencial do cliente apareça nos resultados de pesquisa do Google.

Quando negligenciado, isso pode resultar em quebra de confiança ou litígio caro que pode acabar com o relacionamento com o cliente.

Tudo isso não precisa acontecer se você souber com que facilidade os dados do cliente podem entrar no índice do Google e como evitá-lo.

Descubra o problema crítico de indexação de pesquisa que muitos SEOs não percebem, a exposição acidental de dados de clientes no Google e maneiras de desindexar esse conteúdo.

Como encontrei dados confidenciais

Sou um consultor de SEO independente em tempo integral que fez parceria com diversas empresas de médio porte desde 2018, tendo melhorado os resultados de pesquisa orgânica por mais de 10 anos.

Ao fazer uma auditoria técnica de SEO, uso um operador de pesquisa de site (inserindo site:domain.com) no Google para verificar os resultados. Aqui, posso ver rapidamente a aparência dos nomes, títulos, URLs e snippets de sites em diferentes categorias de páginas.

Também percebo padrões do que está sendo indexado, talvez acrescentando palavras-chave ao operador para ser mais específico quando necessário.

Para a maioria dos clientes, às vezes noto sites de desenvolvimento/teste/encenação sendo indexados, conteúdo fino diluindo o valor do link ou prejudicando a eficácia do rastreamento (ou levando à canibalização de palavras-chave) e páginas de destino pagas que não devem ser classificadas.

Comecei a detectar, porém, com frequência alarmante, algo exclusivo dos clientes SaaS:

Páginas normalmente sob subdomínios que ninguém pensa – em equipes de marketing ou de produto – sendo indexadas.

Os mais inócuos são os subdomínios de clientes que personalizam sua experiência de login (por exemplo, client.example.com ).

Mesmo aqui, um cliente pode não querer ter seu nome nos resultados da pesquisa. Dependendo do seu produto, isso pode revelar um diferencial ou vulnerabilidade aos concorrentes.

Em casos muito mais graves, formulários baseados na web com dados coletados (de pessoas específicas) podem ser encontrados.

Nos piores casos (e com a consulta de pesquisa correta), até mesmo os campos do formulário podem ser acessados ​​e alterados devido à falta de proteção por senha.

Embora não esteja relacionado ao crescimento por meio da pesquisa orgânica, sou rápido em apontar isso. Parecia óbvio para mim que muito poderia estar em jogo aqui.

Em pelo menos vários casos, isso se tornou um problema de “todas as mãos no convés”, pois fui solicitado a obter esses dados dos resultados da pesquisa mais rapidamente do que o mais rápido possível.

Um CEO mencionou que seus consultores de segurança nunca mencionaram essa possibilidade. Isso foi encontrado rapidamente por meio de uma etapa básica que a maioria dos SEOs faria em uma auditoria.

Para ser justo, quase sempre é necessária uma pesquisa incomum para encontrar esse tipo de página.

No entanto, considere as pesquisas estranhas que os clientes, talvez até mesmo sua equipe de liderança, fariam – para não mencionar os rivais. (Nunca se esqueça da estatística duradoura de que 15% das consultas de pesquisa no Google são únicas!)

Mesmo que não seja uma questão legal, dados confidenciais em resultados de pesquisa encontrados por clientes primeiro ainda podem prejudicar seu relacionamento.


Obtenha a newsletter diária em que os profissionais de marketing de busca confiam.

Processando ... Por favor aguarde.

Consulte os termos.


Por que esses dados estão no Google?

Basta um link único e discreto para uma página de qualquer recurso acessado pelos mecanismos de pesquisa, em qualquer lugar da Web:

  • A página está listada em seu sitemap XML, mesmo que não esteja vinculada ao seu site?
  • Poderia ter havido uma referência em seu site no passado ou algo que passou despercebido no JavaScript?
  • Na maioria das vezes, o cliente cria um link para a página – mas é destinado apenas a pessoas específicas, como participantes de pesquisas, não ao público em geral.

Felizmente, a conscientização é mais da metade da batalha aqui. Depois de conhecer as páginas a serem removidas da pesquisa, você pode iniciar rapidamente o processo de correção, começando pelo Google.

Como desindexar conteúdo rapidamente no Google

Encontre um padrão para URLs com dados confidenciais mostrados nos resultados de pesquisa do Google

Por exemplo, é comum ter um subdomínio intitulado data.example.com que hospeda a versão baseada na web do seu produto SaaS. Você pode usar o operador de pesquisa do site para verificar as páginas de resultados.

Use o relatório de indexação de páginas no Google Search Console (GSC) para visualizar todos os URLs indexados

Isso pode não mostrar tudo. Entrar em contato com sua equipe de produto sobre isso pode ajudar, pois eles podem fornecer tudo o que você precisa com mais rapidez e precisão.

Relatório de indexação de página

Verifique novamente seus URLs

Confirme usando a ferramenta de inspeção de URL para cada URL, se possível ou pelo menos uma amostra, no GSC, caso os links encontrados não estejam mais nesses locais.

Relatório de indexação de página

Para encontrar as páginas ofensivas, considere todas as versões de URL que podem canonizar o que você vê nos resultados da pesquisa.

Com o URL canônico removido, as versões alternativas podem ser indexadas.

Aplique o padrão (o segundo botão de opção em New Request ), provavelmente um subdomínio, ou liste cada URL fazendo uma nova solicitação na ferramenta GSC Removals.

Remoções GSC

Para um conjunto limitado de páginas, usar a ferramenta de inspeção de URL após a aplicação desta etapa pode acelerar a remoção e também pode confirmar o status mais recente. Isso deve ser feito um de cada vez. (Embora não seja o gigante que o Google é, pelo menos hoje, você também deve fazer isso na ferramenta Bloquear URL do Microsoft Bing.)

GSC - Remoções temporárias

Seguindo essas etapas, a remoção do índice do Google durará apenas seis meses.

Isso não impedirá que o problema ocorra para sempre ou ocorra em outros mecanismos de pesquisa, portanto, você precisará executar uma etapa final abaixo.

Como remover conteúdo do Google permanentemente

Dois métodos podem funcionar aqui:

1. Use uma tag meta robots noindex na seção de cabeçalho dessas páginas

Você deve fazer com que seus desenvolvedores da Web adicionem isso ao modelo de página para replicá-lo em todas as páginas.

  • Para PDFs, imagens e outros conteúdos não HTML, você pode adicionar um cabeçalho HTTP X-Robots-Tag com um valor de noindex/none. Isso também é válido para páginas HTML regulares, mas não é tão rápido de implementar.

Observação: não use regras de bloqueio do robots.txt (exceção para imagens), que só funcionam se não houver nenhum problema em primeiro lugar. Uma proibição bloqueia o rastreamento, mas não a indexação.

2. Bloqueie o conteúdo

Proteger com senha suas páginas da Web ou arquivos garantirá que apenas usuários autorizados possam acessá-los. Essa também é outra maneira de impedir que seu conteúdo apareça no Google.

Impedir que conteúdo confidencial apareça nos resultados da pesquisa

Depois de seguir uma dessas etapas, você pode ter certeza de que as páginas com dados confidenciais do cliente serão removidas e não entrarão novamente no índice do Google, com páginas removidas em um dia, na maioria dos casos.

De boa fé, você deve contar a seus clientes exatamente o que aconteceu. Apenas lembre-se de que nada desaparece completamente na web.


As opiniões expressas neste artigo são do autor convidado e não necessariamente do Search Engine Land. Os autores da equipe estão listados aqui.