Cómo eliminar datos confidenciales de clientes del índice de Google
Publicado: 2023-08-07Mejores clasificaciones de palabras clave. Más tráfico. Conversiones adicionales de la búsqueda orgánica. Estos son los KPI utilizados para medir el rendimiento de SEO.
Pero más allá de las métricas de crecimiento, hay un elemento clave que algunos consultores o agencias pasan por alto al administrar las campañas de SEO de un cliente:
Evitar que el contenido confidencial del cliente aparezca en los resultados de búsqueda de Google.
Cuando se descuida, esto puede dar lugar a un abuso de confianza o a un litigio costoso que, en última instancia, puede poner fin a la relación con un cliente.
Todo esto no tiene por qué suceder si sabe con qué facilidad los datos del cliente pueden ingresar al índice de Google y cómo evitarlo.
Descubra el problema crítico de indexación de búsqueda que muchos SEO pasan por alto, la exposición accidental de los datos del cliente en Google y las formas de desindexar dicho contenido.
Cómo encontré datos confidenciales
Soy un consultor de SEO independiente a tiempo completo que se asoció con varias empresas medianas desde 2018 y ha mejorado los resultados de búsqueda orgánica durante más de 10 años.
Cuando realizo una auditoría técnica de SEO, utilizo un operador de búsqueda de sitios (ingresando site:domain.com) en Google para verificar los resultados. Aquí, puedo ver rápidamente cómo se ven los nombres, títulos, URL y fragmentos de sitios en diferentes categorías de páginas.
También noto patrones de lo que se indexa, tal vez agregando palabras clave al operador para ser más específico cuando sea necesario.
Para la mayoría de los clientes, a veces noto que los sitios de desarrollo/prueba/preparación se indexan, el contenido delgado diluye la equidad de los enlaces o daña la eficacia del rastreo (o conduce a la canibalización de palabras clave) y las páginas de destino pagas que no están destinadas a clasificar.
Sin embargo, comencé a detectar, con una frecuencia alarmante, algo exclusivo de los clientes de SaaS:
Páginas típicamente bajo subdominios en los que nadie piensa, ni en los equipos de marketing ni en los de productos, que se indexan.
Los más inocuos son los subdominios de clientes que personalizan su experiencia de inicio de sesión (p. ej., client.example.com
).
Incluso aquí, es posible que un cliente no desee tener su nombre en los resultados de búsqueda. Dependiendo de su producto, esto podría revelar un diferenciador o una vulnerabilidad frente a los competidores.
En casos mucho más graves, se pueden encontrar formularios basados en la web con datos recopilados (de personas específicas).
En el peor de los casos (y con la consulta de búsqueda correcta), incluso los campos de formulario podrían ser accedidos y cambiados debido a la falta de protección con contraseña.
Si bien no está relacionado con el crecimiento a través de la búsqueda orgánica, me apresuro a señalarlos. Parecía obvio para mí que mucho podría estar en juego aquí.
En al menos varios casos, esto se convirtió en un problema de "todas las manos a la obra" en el que se me pidió que sacara estos datos de los resultados de búsqueda más rápido que lo antes posible.
Un CEO mencionó que sus consultores de seguridad nunca mencionaron esta posibilidad. Esto se encontró rápidamente a través de un paso básico que la mayoría de los SEO harían en una auditoría.
Para ser justos, casi siempre se requiere una búsqueda inusual para encontrar este tipo de páginas.
Sin embargo, considere las búsquedas extrañas que realizarían los clientes, tal vez incluso su equipo de liderazgo, sin mencionar a los rivales. (¡Nunca olvide la estadística perdurable de que el 15% de las consultas de búsqueda en Google son únicas!)
Incluso si no es un problema legal, los datos confidenciales en los resultados de búsqueda encontrados por los clientes primero aún podrían dañar su relación.
Obtenga el boletín informativo diario en el que confían los especialistas en marketing.
Ver términos.
¿Por qué estos datos están incluso en Google?
Un solo enlace discreto a una página desde cualquier recurso al que accedan los motores de búsqueda, en cualquier lugar de la web, es todo lo que se necesita:
- ¿Aparece la página en su mapa del sitio XML, incluso si no está vinculada en su sitio?
- ¿Podría haber una referencia en su sitio en el pasado o algo que pasa desapercibido en JavaScript?
- La mayoría de las veces, el cliente se vincula a la página, pero solo está destinada a que la vean personas específicas, como los participantes de la encuesta, no el público en general.
Afortunadamente, la conciencia es más de la mitad de la batalla aquí. Una vez que sepa las páginas que se eliminarán de la búsqueda, puede iniciar rápidamente el proceso de corrección, comenzando con Google.
Cómo desindexar rápidamente contenido en Google
Encuentre un patrón para las URL con datos confidenciales que se muestran en los resultados de búsqueda de Google
Por ejemplo, es común tener un subdominio titulado data.example.com que alberga la versión basada en web de su producto SaaS. Puede utilizar el operador de búsqueda del sitio para escanear las páginas de resultados.
Use el informe de indexación de páginas en Google Search Console (GSC) para ver todas las URL indexadas
Esto puede no mostrar todo. Ponerse en contacto con su equipo de producto sobre esto podría ayudar, ya que pueden proporcionarle todo lo que necesita de manera más rápida y precisa.
Vuelva a verificar sus URL
Confirme utilizando la herramienta de inspección de URL para cada URL, si es posible o al menos una muestra, en GSC en caso de que los enlaces que encontró ya no estén en esas ubicaciones.
Para encontrar las páginas infractoras, tenga en cuenta todas las versiones de URL que pueden canonizar lo que ve en los resultados de búsqueda.
Con la URL canónica eliminada, las versiones alternativas pueden indexarse.
Aplique el patrón (el segundo botón de radio debajo de Nueva solicitud ), probablemente un subdominio, o enumere cada URL haciendo una nueva solicitud en la herramienta Eliminaciones de GSC.
Para un conjunto limitado de páginas, el uso de la herramienta de inspección de URL una vez que se aplica este paso puede acelerar la eliminación y también puede confirmar el estado más reciente. Esto debe hacerse uno a la vez. (Aunque no es el gigante que es Google, al menos hoy, también debe hacer esto en la herramienta Bloquear URL de Microsoft Bing).
Al seguir estos pasos, la eliminación del índice de Google solo durará seis meses.
No evitará el problema para siempre ni evitará que ocurra en otros motores de búsqueda, por lo que deberá realizar un último paso a continuación.
Cómo eliminar contenido de Google de forma permanente
Dos métodos pueden funcionar aquí:
1. Use una etiqueta de meta robots noindex en la sección principal de esas páginas
Debe hacer que sus desarrolladores web agreguen esto a la plantilla de página para replicarlo en todas las páginas.
- Para archivos PDF, imágenes y otro contenido que no sea HTML, puede agregar un encabezado HTTP X-Robots-Tag con un valor de noindex/none. Esto también es válido para páginas HTML normales, pero no tan rápido de implementar.
Nota: No utilices reglas de rechazo de robots.txt (a excepción de las imágenes), que solo funcionan si no hay ningún problema en primer lugar. Una prohibición bloquea el rastreo pero no la indexación.
2. Controla el contenido
Proteger con contraseña sus páginas web o archivos garantizará que solo los usuarios autorizados puedan acceder a ellos. Esta es también otra forma de bloquear su contenido para que no aparezca en Google.
Evitar que aparezca contenido confidencial en los resultados de búsqueda
Después de seguir uno de estos pasos, puede estar seguro de que las páginas con datos confidenciales del cliente se eliminarán y no volverán a ingresar al índice de Google, con páginas eliminadas dentro de un día, en la mayoría de los casos.
De buena fe, debe informar a sus clientes exactamente lo que sucedió. Solo recuerda que nada desaparece por completo en la web.
Las opiniones expresadas en este artículo pertenecen al autor invitado y no necesariamente a Search Engine Land. Los autores del personal se enumeran aquí.