Как удалить конфиденциальные данные клиента из индекса Google
Опубликовано: 2023-08-07Лучшее ранжирование по ключевым словам. Больше трафика. Дополнительные конверсии из органического поиска. Это KPI, используемые для измерения эффективности SEO.
Но помимо показателей роста есть ключевой элемент, который некоторые консультанты или агентства упускают из виду при управлении SEO-кампаниями клиента:
Предотвращение появления конфиденциального контента клиента в результатах поиска Google.
Если пренебречь этим, это может привести к злоупотреблению доверием или дорогостоящим судебным разбирательствам, которые в конечном итоге могут положить конец отношениям с клиентом.
Всего этого не должно происходить, если вы знаете, как легко данные клиента могут попасть в индекс Google и как этого избежать.
Узнайте о критической проблеме поисковой индексации, которую многие оптимизаторы упускают из виду, о случайном раскрытии данных клиентов в Google и о способах деиндексации такого контента.
Как я нашел конфиденциальные данные
Я штатный независимый консультант по SEO, который сотрудничает с различными компаниями среднего размера с 2018 года, улучшая результаты обычного поиска более 10 лет.
При проведении технического SEO-аудита я использую оператор поиска по сайту (ввод site:domain.com) в Google для проверки результатов. Здесь я могу быстро увидеть, как названия сайтов, заголовки, URL-адреса и фрагменты выглядят на разных категориях страниц.
Я также замечаю шаблоны того, что индексируется, возможно, добавляя ключевые слова к оператору, чтобы получить более конкретную информацию, когда это необходимо.
Для большинства клиентов я иногда замечаю, что сайты разработки/тестирования/подготовки индексируются, малосодержательный контент разбавляет ссылочный вес или снижает эффективность сканирования (или приводит к каннибализации ключевых слов) и платные целевые страницы, которые не предназначены для ранжирования.
Однако я начал обнаруживать с тревожной частотой кое-что, уникальное для клиентов SaaS:
Страницы, как правило, под субдоменами, о которых никто никогда не думает — ни в маркетинговых, ни в продуктовых командах — индексируются.
Наиболее безобидными являются поддомены клиентов, которые настраивают их вход в систему (например, client.example.com
).
Даже здесь клиент может не захотеть, чтобы его имя было в результатах поиска. В зависимости от вашего продукта это может выявить отличительные черты или уязвимость для конкурентов.
В гораздо более серьезных случаях можно было найти веб-формы с собранными данными (от конкретных людей).
В худших случаях (и при правильном поисковом запросе) можно было получить доступ и изменить даже поля формы из-за отсутствия защиты паролем.
Хотя это не связано с ростом за счет органического поиска, я быстро указываю на это. Мне казалось очевидным, что здесь многое может быть поставлено на карту.
По крайней мере, в нескольких случаях это становилось проблемой «всех рук на палубе», поскольку меня просили получить эти данные из результатов поиска быстрее, чем как можно скорее.
Один генеральный директор упомянул, что его консультанты по безопасности никогда не упоминали об этой возможности. Это было быстро обнаружено с помощью базового шага, который большинство SEO-специалистов сделали бы при аудите.
Справедливости ради, чтобы найти такие страницы, почти всегда требуется необычный поиск.
Тем не менее, подумайте о странных поисковых запросах, которые будут вводить клиенты, возможно, даже ваша команда руководителей, не говоря уже о конкурентах. (Никогда не забывайте статистику, что 15% поисковых запросов в Google уникальны!)
Даже если это не юридический вопрос, конфиденциальные данные в результатах поиска, найденные клиентами первыми, могут нанести вред вашим отношениям.
Получайте ежедневный информационный бюллетень, на который полагаются поисковые маркетологи.
См. условия.
Почему эти данные есть даже в Google?
Достаточно одной незаметной ссылки на страницу с любого ресурса, к которому обращаются поисковые системы, из любой точки сети:
- Указана ли страница в вашей XML-карте сайта, даже если на нее нет ссылок на вашем сайте?
- Могла ли быть ссылка на ваш сайт в прошлом или что-то, что осталось незамеченным в JavaScript?
- Чаще всего клиент ссылается на страницу, но она предназначена только для определенных людей, таких как участники опроса, а не для широкой публики.
К счастью, осознание здесь больше, чем полдела. Как только вы узнаете, какие страницы нужно удалить из поиска, вы можете быстро начать процесс исправления, начиная с Google.
Как быстро деиндексировать контент в Google
Найдите шаблон для URL-адресов с конфиденциальными данными, отображаемых в результатах поиска Google.
Например, обычно используется поддомен data.example.com, на котором размещена веб-версия вашего продукта SaaS. Вы можете использовать оператор поиска по сайту для сканирования страниц результатов.
Используйте отчет об индексации страниц в Google Search Console (GSC), чтобы просмотреть все проиндексированные URL-адреса.
Это может показать не все. Обращение к вашей команде разработчиков по этому поводу может помочь, так как они могут предоставить все, что вам нужно, быстрее и точнее.
Дважды проверьте свои URL-адреса
Подтвердите, используя инструмент проверки URL-адресов для каждого URL-адреса, если это возможно, или хотя бы образец в GSC, если найденные вами ссылки больше не находятся в этих местах.
Чтобы найти страницы-нарушители, рассмотрите все версии URL-адресов, которые могут быть канонизированы по отношению к тому, что вы видите в результатах поиска.
После удаления канонического URL альтернативные версии могут быть проиндексированы.
Примените шаблон (второй переключатель в разделе «Новый запрос »), вероятно, субдомен, или перечислите все URL-адреса, сделав новый запрос в инструменте удаления GSC.
Для ограниченного набора страниц использование инструмента проверки URL-адресов после применения этого шага может ускорить удаление, а также подтвердить последний статус. Это нужно делать по очереди. (Хотя Google и не является таким гигантом, по крайней мере сегодня, вы также должны сделать это в инструменте блокировки URL-адресов Microsoft Bing.)
При выполнении этих шагов удаление из индекса Google продлится всего шесть месяцев.
Это не предотвратит проблему навсегда или ее появление в других поисковых системах, поэтому вам нужно будет сделать последний шаг ниже.
Как удалить контент из Google навсегда
Здесь могут работать два метода:
1. Используйте метатег noindex для роботов в разделе заголовка этих страниц.
Вы должны попросить своих веб-разработчиков добавить это в шаблон страницы, чтобы воспроизвести его на всех страницах.
- Для PDF-файлов, изображений и другого контента, отличного от HTML, вы можете добавить HTTP-заголовок X-Robots-Tag со значением noindex/none. Это также справедливо для обычных HTML-страниц, но не так быстро для реализации.
Примечание. Не используйте правила запрета в файле robots.txt (исключение для изображений), которые работают только в том случае, если в первую очередь нет проблем. Запрет блокирует сканирование, но не индексацию.
2. Воротите контент
Защита паролем ваших веб-страниц или файлов гарантирует, что только авторизованные пользователи смогут получить к ним доступ. Это еще один способ заблокировать показ вашего контента в Google.
Предотвращение появления конфиденциального контента в результатах поиска
Выполнив один из этих шагов, вы можете быть уверены, что страницы с конфиденциальными данными клиентов будут удалены и не попадут повторно в индекс Google, при этом в большинстве случаев страницы удаляются в течение дня.
Вы должны добросовестно рассказать своим клиентам, что именно произошло. Просто помните, что ничто никогда не исчезает полностью в Интернете.
Мнения, выраженные в этой статье, принадлежат приглашенному автору, а не обязательно поисковой системе. Штатные авторы перечислены здесь.