엔터프라이즈 수준 크롤링 및 인덱싱 효율성을 개선하는 방법

게시 됨: 2023-07-13

엔터프라이즈 SEO는 다른 규칙에 따라 작동합니다.

소규모 또는 틈새 웹사이트에 적합한 전략이 규모에 따라 항상 효과가 있는 것은 아닙니다.

그렇다면 엔터프라이즈 SEO가 너무 커지면 정확히 어떤 일이 일어날 수 있습니까?

이 기사에서는 세 가지 실제 사례를 공유합니다. 그런 다음 규모에 맞게 SEO를 보다 효율적으로 관리하기 위한 잠재적 해독제를 배우게 됩니다.

인덱싱 딜레마에 직면

소규모 사이트는 키워드를 SEO 전략의 구성 요소로 사용하여 한 번에 한 페이지씩 성장하는 경향이 있습니다.

대규모 사이트는 시스템, 규칙 및 자동화에 크게 의존하는 보다 정교한 접근 방식을 채택하는 경우가 많습니다.

SEO를 비즈니스 목표에 맞추는 것이 중요합니다. 키워드 순위 또는 트래픽을 기반으로 SEO 성공을 측정하면 과도한 인덱싱으로 인해 부정적인 결과를 초래합니다.

최적의 인덱싱된 URL 수를 결정하는 마법의 공식은 없습니다. Google은 상한선을 설정하지 않습니다.

그러나 좋은 출발점은 SEO 퍼널의 전반적인 상태를 고려하는 것입니다. 사이트라면…

수천만 , 수억 또는 수십억 개의 URL을 Google에 푸시합니다.
수백만 개의 키워드에 대해서만 순위 지정
수천 페이지에 대한 방문을 받습니다.
이들 중 일부를 변환합니다(있는 경우).

...그러면 심각한 SEO 건강 요구 사항을 해결해야 한다는 좋은 표시입니다.

지금 사이트 위생 문제를 수정하면 나중에 더 큰 SEO 문제를 예방할 수 있습니다.

이것이 왜 그렇게 중요한지 보여주는 세 가지 실제 기업 SEO 사례를 살펴보겠습니다.

사례 1: 저품질 콘텐츠를 과도하게 인덱싱한 결과

Google은 웹 크롤링 및 처리를 위한 리소스가 제한되어 있습니다. 그들은 사용자에게 가치 있는 콘텐츠를 우선시합니다.

Google은 내용이 적거나 중복되거나 품질이 낮은 페이지를 크롤링할 수 있지만 색인을 생성하지는 않습니다.

몇 페이지만 있으면 문제가 되지 않습니다. 그러나 그것이 널리 퍼진 경우 Google은 전체 페이지 유형이나 대부분의 사이트 콘텐츠를 무시할 수 있습니다.

한 전자상거래 시장에서는 수천만 개의 리스팅 페이지가 선택적 크롤링 및 인덱싱의 영향을 받았다는 사실을 발견했습니다.

얇고 거의 중복에 가까운 목록 페이지 수백만 개를 크롤링하고 색인을 생성하지 않은 후 Google은 결국 웹사이트 크롤링을 완전히 축소하여 많은 페이지를 "발견됨 – 현재 색인화되지 않음" 림보에 남겨 두었습니다.

이 마켓플레이스는 사용자에게 새 목록을 홍보하기 위해 검색 엔진에 크게 의존했습니다. 새로운 콘텐츠가 더 이상 발견되지 않아 심각한 비즈니스 문제가 발생했습니다.

내부 링크 개선 및 동적 XML 사이트맵 배포와 같은 몇 가지 즉각적인 조치가 취해졌습니다. 결국 이러한 시도는 무의미했다.

실제 솔루션은 인덱싱 가능한 콘텐츠의 양과 품질을 제어해야 했습니다.

사례 2: 크롤링 중단의 예기치 않은 결과

크롤링이 중지되면 원치 않는 콘텐츠는 변경, 리디렉션 또는 삭제되더라도 Google 색인에 남아 있습니다.

많은 웹사이트는 권한을 유지하기 위해 제거된 콘텐츠에 대해 404 오류 대신 리디렉션을 사용합니다. 이 전술은 몇 년은 아니더라도 몇 달 동안 고스트 페이지에서 추가 트래픽을 짜낼 수 있습니다.

그러나 이것은 때때로 끔찍하게 잘못될 수 있습니다.

예를 들어, 수공예품을 판매하는 잘 알려진 글로벌 마켓플레이스는 목록 페이지의 현지화된 버전에 실수로 판매자의 개인 정보(예: 이름, 주소, 이메일, 전화번호)를 공개했습니다. 이러한 페이지 중 일부는 Google에서 색인을 생성하고 캐시하여 검색 결과에 개인 식별 정보(PII)를 표시하여 사용자 안전과 개인 정보를 침해했습니다.

Google은 이러한 페이지를 다시 크롤링하지 않았기 때문에 페이지를 제거하거나 업데이트해도 색인에서 제거되지 않습니다. 삭제한 지 몇 달이 지난 후에도 캐시된 콘텐츠와 사용자 PII 데이터는 Google 색인에 계속 존재했습니다.

이와 같은 상황에서 버그를 수정하고 Google과 직접 협력하여 검색에서 민감한 콘텐츠를 삭제하는 것은 시장의 책임이었습니다.

사례 3: 검색 결과 페이지를 과도하게 인덱싱하는 위험

얇고 품질이 낮은 대량의 페이지에 대한 제어되지 않은 인덱싱은 역효과를 낼 수 있습니다. 하지만 검색 결과 페이지를 인덱싱하는 것은 어떻습니까?

Google은 내부 검색 결과의 색인 생성을 보증하지 않으며 많은 노련한 SEO는 이 전술에 대해 강력히 조언합니다. 그러나 많은 대형 사이트는 주요 SEO 동인으로 내부 검색에 크게 의존하여 종종 상당한 수익을 올렸습니다.

사용자 참여 측정항목, 페이지 경험 및 콘텐츠 품질이 충분히 높으면 Google이 눈감아 줄 수 있습니다. 실제로 Google이 얇은 목록 페이지보다 고품질 내부 검색 결과 페이지를 선호할 수도 있다는 충분한 증거가 있습니다.

그러나 이 전략도 잘못될 수 있습니다.

한 번은 지역 경매 사이트가 하룻밤 사이에 검색 페이지 순위의 상당 부분과 SEO 트래픽의 3분의 1 이상을 잃는 것을 본 적이 있습니다.

20/80 규칙은 인덱싱된 검색 결과에 대한 대부분의 SEO 방문을 설명하는 헤드 용어의 작은 부분에 적용됩니다. 그러나 URL 볼륨에서 대부분을 차지하고 가장 높은 전환율을 자랑하는 것은 롱테일인 경우가 많습니다.

그 결과, 이 전술을 사용하는 사이트 중 검색 페이지 색인 생성에 엄격한 제한이나 규칙을 적용하는 사이트는 거의 없습니다.

이는 두 가지 주요 문제를 야기합니다.

모든 검색어는 유효한 페이지를 생성할 수 있으며, 이는 무한한 수의 페이지가 자동 생성될 수 있음을 의미합니다.
그들 모두는 Google에서 색인을 생성할 수 있습니다.

타사 광고로 검색 페이지에서 수익을 창출하는 광고 시장의 경우 이 취약점은 광고 차익 거래 형식을 통해 잘 악용되었습니다.

음란하고 성인용이며 완전히 불법적인 용어에 대해 엄청난 수의 검색 URL이 생성되었습니다.
이러한 자동 생성 페이지는 실제 인벤토리 결과를 반환하지 않았지만 제3자 광고를 제공했으며 페이지 템플릿 및 메타데이터를 통해 요청된 검색어 순위에 최적화되었습니다.
봇이 페이지를 발견하고 크롤링할 수 있도록 저품질 포럼에서 이러한 페이지에 대한 백링크가 구축되었습니다.
Google에서 이러한 페이지를 방문한 사용자는 제3자 광고를 클릭하고 의도한 목적지였던 저품질 사이트로 이동합니다.

계획이 발견되었을 때 사이트의 전반적인 명성은 손상되었습니다. 또한 몇 가지 페널티를 받았고 SEO 성능이 크게 감소했습니다.

관리형 인덱싱 수용

이러한 문제를 어떻게 피할 수 있었습니까?

대기업 사이트가 SEO에서 성공할 수 있는 가장 좋은 방법 중 하나는 관리형 인덱싱을 통해 축소하는 것입니다.

수천만 또는 수억 페이지의 사이트의 경우 키워드 중심 접근 방식을 넘어 데이터, 규칙 및 자동화로 구동되는 접근 방식으로 이동하는 것이 중요합니다.

데이터 기반 인덱싱

대규모 사이트의 한 가지 중요한 이점은 마음대로 사용할 수 있는 풍부한 내부 검색 데이터입니다.

외부 도구에 의존하는 대신 이 데이터를 활용하여 세분화된 수준에서 지역 및 계절별 검색 수요와 트렌드를 이해할 수 있습니다.

이 데이터는 기존 콘텐츠 인벤토리에 매핑될 때 어떤 콘텐츠를 인덱싱할지, 언제 어디서 인덱싱할지에 대한 강력한 지침을 제공할 수 있습니다.

중복 제거 및 통합

소수의 신뢰할 수 있는 상위 URL이 상위 100개 전체에 흩어져 있는 대량의 페이지보다 훨씬 더 가치가 있습니다.

표준을 사용하여 유사한 페이지를 통합하고 이를 위해 규칙과 자동화를 활용하는 것이 좋습니다. 일부 페이지는 유사성 점수를 기반으로 통합될 수 있고 다른 페이지는 유사한 검색어에 대해 집합적으로 순위가 매겨지면 함께 클러스터링될 수 있습니다.

여기서 핵심은 실험입니다. 논리를 조정하고 시간이 지남에 따라 임계값을 수정합니다.

얇고 빈 콘텐츠 페이지 정리

대량으로 존재하는 경우 얇고 빈 페이지는 사이트 위생 및 성능에 심각한 손상을 줄 수 있습니다.

가치 있는 콘텐츠로 개선하거나 통합하기가 너무 어렵다면 색인을 생성하지 않거나 심지어 허용하지 않아야 합니다.

robots.txt로 무한한 공간 줄이기

Google이 "무한한 공간"에 대해 처음 쓴 지 15년이 지난 지금도 필터, 정렬 및 기타 매개변수 조합의 과잉 색인 문제는 많은 전자 상거래 사이트를 괴롭히고 있습니다.

극단적인 경우 크롤러는 이러한 링크를 통과하려고 할 때 서버를 중단시킬 수 있습니다. 고맙게도 이 문제는 robots.txt를 통해 쉽게 해결할 수 있습니다.

클라이언트 측 렌더링

검색 엔진에서 인덱싱하지 않으려는 특정 페이지 구성 요소에 대해 클라이언트 측 렌더링을 사용하는 것이 옵션일 수 있습니다. 이것을 신중하게 고려하십시오.

더 나아가 이러한 구성 요소는 로그아웃한 사용자가 액세스할 수 없어야 합니다.

규모가 커질수록 판돈이 급격히 증가

SEO는 종종 "무료" 트래픽 소스로 인식되지만 이는 다소 오해의 소지가 있습니다. 콘텐츠를 호스팅하고 제공하는 데 비용이 듭니다.

URL당 비용은 미미할 수 있지만 규모가 수억 또는 수십억 페이지에 도달하면 동전이 실제 숫자로 추가되기 시작합니다.

SEO의 ROI는 측정하기 까다롭지만 절약한 돈은 돈을 벌고 관리된 크롤링 및 인덱싱을 통한 비용 절감은 대규모 사이트에 대한 인덱싱 전략을 고려할 때 하나의 요소가 되어야 합니다.

데이터, 규칙 및 자동화에 따라 잘 관리되는 크롤링 및 인덱싱을 사용하는 SEO에 대한 실용적인 접근 방식은 비용이 많이 드는 실수로부터 대형 웹사이트를 보호할 수 있습니다.

이 기사에 표현된 의견은 게스트 작성자의 의견이며 반드시 검색 엔진 랜드가 아닙니다. 교직원 저자는 여기에 나열됩니다.

Google 뉴스 피드에 Search Engine Land를 추가하세요.