Google 색인에서 민감한 고객 데이터를 삭제하는 방법

게시 됨: 2023-08-07

더 나은 키워드 순위. 더 많은 트래픽. 자연 검색의 추가 전환입니다. SEO 성과를 측정하는 데 사용되는 KPI입니다.

그러나 성장 지표 외에도 고객의 SEO 캠페인을 관리할 때 일부 컨설턴트나 대행사가 간과하는 핵심 요소가 있습니다.

기밀 클라이언트 콘텐츠가 Google 검색 결과에 표시되지 않도록 합니다.

이를 무시하면 신뢰 위반 또는 궁극적으로 클라이언트 관계를 종료할 수 있는 비용이 많이 드는 소송이 발생할 수 있습니다.

고객 데이터가 얼마나 쉽게 Google 색인에 들어갈 수 있는지와 이를 피하는 방법을 안다면 이 모든 일이 일어나지 않아도 됩니다.

많은 SEO가 놓치는 중요한 검색 인덱싱 문제, Google에서 고객 데이터의 우발적 노출, 이러한 콘텐츠를 인덱싱 해제하는 방법을 알아보세요.

민감한 데이터를 찾은 방법

저는 2018년부터 다양한 중간 규모 기업과 협력하여 10년 이상 유기적 검색 결과를 개선한 정규직 독립 SEO 컨설턴트입니다.

저는 기술적인 SEO 감사를 할 때 Google에서 사이트 검색 연산자(site:domain.com 입력)를 사용하여 결과를 확인합니다. 여기에서 사이트 이름, 제목, URL 및 스니펫이 여러 페이지 범주에서 어떻게 보이는지 빠르게 확인할 수 있습니다.

또한 색인이 생성되는 패턴을 확인하고 필요할 때 더 구체적으로 표시하기 위해 연산자에 키워드를 추가할 수 있습니다.

대부분의 고객의 경우 때때로 개발/테스트/스테이징 사이트가 색인화되고 얇은 콘텐츠가 링크 자산을 희석하거나 크롤링 효율성을 해치거나(또는 키워드 잠식으로 이어짐) 순위를 매기지 않는 유료 랜딩 페이지를 볼 수 있습니다.

그러나 나는 놀라운 빈도로 SaaS 클라이언트에 고유한 것을 감지하기 시작했습니다.

일반적으로 마케팅 팀이나 제품 팀에서 아무도 생각하지 않는 하위 도메인 아래의 페이지가 색인 생성됩니다.

가장 무해한 것은 로그인 경험을 사용자 지정하는 고객 하위 도메인(예: client.example.com )입니다.

여기에서도 클라이언트는 검색 결과에 자신의 이름이 표시되는 것을 원하지 않을 수 있습니다. 귀하의 제품에 따라 경쟁사에 대한 차별화 요소 또는 취약성이 드러날 수 있습니다.

훨씬 더 심각한 경우에는 (특정한 사람들로부터) 수집된 데이터가 포함된 웹 기반 양식을 찾을 수 있습니다.

최악의 경우(그리고 올바른 검색 쿼리를 사용하는 경우) 암호 보호가 부족하여 양식 필드에 액세스하고 변경할 수 있습니다.

유기적 검색을 통한 성장과는 관련이 없지만 이러한 점을 신속하게 지적합니다. 여기에서 많은 것이 위태로울 수 있다는 것이 나에게 명백해 보였습니다.

적어도 몇 가지 경우에 이것은 ASAP보다 더 빨리 이 데이터를 검색 결과에서 제거하라는 요청을 받았기 때문에 이것은 "모든 사람이 참여하는" 문제가 되었습니다.

한 CEO는 그의 보안 컨설턴트가 이러한 가능성을 언급한 적이 없다고 말했습니다. 이것은 대부분의 SEO가 감사에서 수행하는 기본 단계를 통해 빠르게 발견되었습니다.

공정하게 말하면 이러한 종류의 페이지를 찾으려면 거의 항상 비정상적인 검색이 필요합니다.

그러나 라이벌은 말할 것도 없고 고객, 심지어는 리더십 팀이 입력할 이상한 검색을 고려하십시오. (Google 검색어의 15%가 고유하다는 지속적인 통계를 잊지 마십시오!)

법적인 문제가 아니더라도 고객이 먼저 찾은 검색 결과의 민감한 데이터는 여전히 관계를 해칠 수 있습니다.


검색 마케터가 의존하는 일일 뉴스레터를 받으세요.

처리 중…기다려 주십시오.

용어를 참조하십시오.


이 데이터가 Google에도 있는 이유는 무엇입니까?

웹 어디에서나 검색 엔진이 액세스하는 모든 리소스에서 페이지로 연결되는 눈에 띄지 않는 단일 링크만 있으면 됩니다.

  • 페이지가 사이트에 링크되어 있지 않아도 XML 사이트맵에 나열되어 있습니까?
  • 과거에 귀하의 사이트에 대한 참조가 있었거나 JavaScript에서 눈에 띄지 않는 무언가가 있었습니까?
  • 대부분의 경우 클라이언트는 페이지에 링크하지만 일반 대중이 아닌 설문 조사 참가자와 같은 특정 사용자만 볼 수 있도록 만들어졌습니다.

고맙게도 인식은 여기에서 전투의 절반 이상입니다. 검색에서 제거할 페이지를 알게 되면 Google에서 시작하여 수정 프로세스를 신속하게 시작할 수 있습니다.

Google에서 콘텐츠를 신속하게 색인 해제하는 방법

Google 검색결과에 표시된 민감한 정보가 포함된 URL의 패턴 찾기

예를 들어 SaaS 제품의 웹 기반 버전을 포함하는 data.example.com이라는 하위 도메인이 있는 것이 일반적입니다. 사이트 검색 연산자를 사용하여 결과 페이지를 스캔할 수 있습니다.

Google Search Console(GSC)의 페이지 색인 보고서를 사용하여 색인이 생성된 모든 URL을 확인하세요.

이것은 모든 것을 보여주지 않을 수도 있습니다. 이에 대해 제품 팀에 문의하면 필요한 모든 것을 더 빠르고 정확하게 제공할 수 있으므로 도움이 될 수 있습니다.

페이지 인덱싱 보고서

URL을 다시 확인하세요.

찾은 링크가 더 이상 해당 위치에 없는 경우 가능한 경우 모든 URL에 대해 URL 검사 도구를 사용하거나 GSC에서 최소한 샘플을 사용하여 확인합니다.

페이지 인덱싱 보고서

문제가 되는 페이지를 찾으려면 검색 결과에 표시되는 내용을 정규화할 수 있는 모든 URL 버전을 고려하십시오.

표준 URL이 제거되면 대체 버전의 색인이 생성될 수 있습니다.

하위 도메인일 가능성이 있는 패턴( 새 요청 아래의 두 번째 라디오 버튼)을 적용하거나 GSC 제거 도구에서 새 요청을 만들어 모든 URL을 나열합니다.

GSC 삭제

제한된 페이지 집합의 경우 이 단계가 적용된 후 URL 검사 도구를 사용하면 제거 속도가 빨라지고 최신 상태도 확인할 수 있습니다. 이 작업은 한 번에 하나씩 수행해야 합니다. (Google만큼 거대하지는 않지만 적어도 오늘날에는 Microsoft Bing의 URL 차단 도구에서도 이 작업을 수행해야 합니다.)

GSC - 임시 삭제

이러한 조치를 취하면 Google 색인에서 삭제되는 기간은 6개월뿐입니다.

문제를 영원히 방지하거나 다른 검색 엔진에서 발생하는 것을 막지는 못하므로 아래의 마지막 단계를 수행해야 합니다.

Google에서 콘텐츠를 영구적으로 삭제하는 방법

여기에서 두 가지 방법이 작동할 수 있습니다.

1. 해당 페이지의 헤드 섹션에 NOINDEX 메타 로봇 ​​태그 사용

웹 개발자가 이를 페이지 템플릿에 추가하여 모든 페이지에 복제하도록 해야 합니다.

  • PDF, 이미지 및 기타 HTML이 아닌 콘텐츠의 경우 값이 noindex/none인 X-Robots-Tag HTTP 헤더를 추가할 수 있습니다. 이는 일반 HTML 페이지에도 유효하지만 구현 속도가 빠르지는 않습니다.

참고: 처음부터 문제가 없는 경우에만 작동하는 robots.txt 금지 규칙(이미지 제외)을 사용하지 마세요. 허용 안 함은 크롤링을 차단하지만 인덱싱은 차단하지 않습니다.

2. 콘텐츠 게이트

웹페이지나 파일을 암호로 보호하면 인증된 사용자만 액세스할 수 있습니다. 콘텐츠가 Google에 표시되지 않도록 차단하는 또 다른 방법이기도 합니다.

민감한 콘텐츠가 검색 결과에 나타나지 않도록 방지

이러한 단계 중 하나를 수행하면 민감한 고객 데이터가 포함된 페이지가 제거되고 대부분의 경우 하루 이내에 페이지가 제거되어 Google 색인에 다시 입력되지 않으므로 안심할 수 있습니다.

성실하게 고객에게 무슨 일이 일어났는지 정확히 알려야 합니다. 웹에서 완전히 사라지는 것은 없다는 점을 기억하세요.


이 기사에 표현된 의견은 게스트 작성자의 의견이며 반드시 검색 엔진 랜드가 아닙니다. 교직원 저자는 여기에 나열됩니다.