크롤링 효율성: 크롤링 최적화 수준을 높이는 방법

게시 됨: 2022-10-27

Googlebot이 사이트에서 액세스할 수 있는 모든 URL을 크롤링한다고 보장할 수는 없습니다. 반대로 대부분의 사이트에는 상당한 양의 페이지가 누락되어 있습니다.

현실은 Google이 찾은 모든 페이지를 크롤링할 리소스가 없다는 것입니다. Googlebot이 발견했지만 아직 크롤링하지 않은 모든 URL과 다시 크롤링하려는 URL은 크롤링 대기열에서 우선 순위가 지정됩니다.

즉, Googlebot은 우선순위가 충분히 높은 항목만 크롤링합니다. 크롤링 대기열은 동적이기 때문에 Google에서 새 URL을 처리할 때 계속 변경됩니다. 그리고 모든 URL이 대기열 뒤쪽에서 결합되는 것은 아닙니다.

그렇다면 사이트의 URL이 VIP인지 확인하고 줄을 건너 뛰는 방법은 무엇입니까?

크롤링은 SEO에 매우 중요합니다.

콘텐츠가 가시성을 얻으려면 Googlebot이 먼저 콘텐츠를 크롤링해야 합니다.

그러나 다음과 같은 경우 페이지 크롤링 속도가 더 빠르기 때문에 이점은 그보다 더 미묘한 차이가 있습니다.

생성됨 , 새 콘텐츠가 더 빨리 Google에 표시될 수 있습니다. 이는 시간 제한이 있거나 최초 출시 콘텐츠 전략에 특히 중요합니다.
업데이트됨 , 새로고침된 콘텐츠가 더 빨리 순위에 영향을 줄 수 있습니다. 이는 콘텐츠 재게시 전략과 기술적 SEO 전략 모두에 특히 중요합니다.

따라서 크롤링은 모든 유기적 트래픽에 필수적입니다. 그러나 크롤링 최적화는 대규모 웹사이트에만 유용하다고 말하는 경우가 너무 많습니다.

그러나 웹사이트의 크기, 콘텐츠 업데이트 빈도 또는 Google Search Console에서 "발견됨 - 현재 색인이 생성되지 않은" 제외 항목이 있는지 여부가 문제가 아닙니다.

크롤링 최적화는 모든 웹사이트에 유용합니다. 그 가치에 대한 오해는 무의미한 측정, 특히 크롤링 예산에서 비롯된 것 같습니다.

크롤링 예산은 중요하지 않습니다.

크롤링된 URL 수를 최대화하기 위한 크롤링 예산 최적화가 잘못되었습니다.

너무 자주 크롤링은 크롤링 예산을 기반으로 평가됩니다. 특정 웹사이트에서 지정된 시간 동안 Googlebot이 크롤링할 URL 수입니다.

Google은 두 가지 요소에 의해 결정된다고 말합니다.

크롤링 속도 제한 (또는 Googlebot이 크롤링할 수 있는 항목): Googlebot이 사이트 성능에 영향을 주지 않고 웹사이트의 리소스를 가져올 수 있는 속도입니다. 기본적으로 반응형 서버는 크롤링 속도를 높입니다.
크롤링 수요 (또는 Googlebot이 크롤링하려는 항목): (재)색인 생성에 대한 수요를 기반으로 한 단일 크롤링 동안 Googlebot이 방문하는 URL의 수로, 사이트 콘텐츠의 인기도와 부실성에 영향을 받습니다.

Googlebot이 크롤링 예산을 '사용'하면 사이트 크롤링이 중지됩니다.

Google은 크롤링 예산에 대한 수치를 제공하지 않습니다. 가장 가까운 것은 Google Search Console 크롤링 통계 보고서에 총 크롤링 요청을 표시하는 것입니다.

과거에 저를 포함하여 많은 SEO가 크롤링 예산을 유추하기 위해 많은 노력을 기울였습니다.

자주 제시되는 단계는 다음과 같습니다.

사이트에 크롤링할 수 있는 페이지 수를 결정하고 종종 XML 사이트맵의 URL 수를 확인하거나 무제한 크롤러를 실행할 것을 권장합니다.
Google Search Console 크롤링 통계 보고서를 내보내거나 로그 파일의 Googlebot 요청을 기반으로 하루 평균 크롤링을 계산합니다.
페이지 수를 하루 평균 크롤링으로 나눕니다. 결과가 10 이상이면 크롤링 예산 최적화에 중점을 둡니다.

그러나 이 과정은 문제가 있습니다.

모든 URL이 한 번 크롤링된다고 가정하기 때문만이 아니라 실제로 일부는 여러 번 크롤링되고 나머지는 전혀 크롤링되지 않습니다.

한 번의 크롤링이 한 페이지와 같다고 가정하기 때문만은 아닙니다. 실제로 한 페이지를 로드하는 데 필요한 리소스(JS, CSS 등)를 가져오기 위해 많은 URL 크롤링이 필요할 수 있습니다.

그러나 가장 중요한 것은 일일 평균 크롤링과 같은 계산된 메트릭으로 정제할 때 크롤링 예산은 허영심 메트릭에 불과하기 때문입니다.

"크롤링 예산 최적화"(즉, 지속적으로 총 크롤링 양을 늘리는 것을 목표로 함)를 목표로 하는 모든 전술은 어리석은 일입니다.

가치가 없는 URL이나 마지막 크롤링 이후 변경되지 않은 페이지에 사용되는 경우 총 크롤링 횟수를 늘려야 하는 이유는 무엇입니까? 이러한 크롤링은 SEO 성능에 도움이 되지 않습니다.

또한 크롤링 통계를 본 적이 있는 사람은 여러 요인에 따라 크롤링 통계가 종종 매우 심하게 변동한다는 것을 알고 있습니다. 이러한 변동은 SEO 관련 페이지의 빠른 (재)인덱싱과 상관 관계가 있을 수도 있고 그렇지 않을 수도 있습니다.

크롤링되는 URL 수의 증가 또는 감소는 본질적으로 좋은 것도 나쁜 것도 아닙니다.

크롤링 효율성은 SEO KPI입니다.

URL (재)게시와 크롤링 사이의 시간을 최소화하기 위한 크롤링 효율성 최적화가 실행 가능합니다.

색인을 생성하려는 페이지의 경우 크롤링 여부가 아니라 게시 되거나 크게 변경된 후 크롤링되는 속도 에 초점을 맞춰야 합니다.

기본적으로 목표는 SEO 관련 페이지가 생성 또는 업데이트되고 다음 Googlebot 크롤링 사이의 시간을 최소화하는 것입니다. 나는 이 시간 지연을 크롤링 효능이라고 부릅니다.

크롤링 효율성을 측정하는 이상적인 방법은 데이터베이스 생성 또는 업데이트 날짜 시간과 서버 로그 파일에서 URL의 다음 Googlebot 크롤링 간의 차이를 계산하는 것입니다.

이러한 데이터 포인트에 액세스하기 어려운 경우 마지막 크롤링 상태에 대해 Google Search Console URL 검사 API에서 XML 사이트맵 lastmod 날짜 및 쿼리 URL을 프록시로 사용할 수도 있습니다(하루에 2,000개 쿼리로 제한).

또한 URL 검사 API를 사용하면 색인 상태가 변경되는 시점을 추적하여 새로 생성된 URL에 대한 색인 효율성을 계산할 수도 있습니다. 이는 게시와 성공적인 색인의 차이입니다.

인덱싱 상태에 영향을 미치는 흐름 없이 크롤링하거나 페이지 콘텐츠 새로 고침을 처리하는 것은 낭비일 뿐입니다.

크롤링 효율성은 감소할수록 SEO에 중요한 콘텐츠가 Google 전체의 잠재고객에게 노출될 수 있으므로 실행 가능한 측정항목입니다.

SEO 문제를 진단하는 데 사용할 수도 있습니다. URL 패턴으로 드릴다운하여 사이트의 다양한 섹션에서 콘텐츠가 얼마나 빨리 크롤링되고 이것이 유기적 성능을 저해하는지 이해하십시오.

Googlebot이 크롤링하는 데 몇 시간, 며칠 또는 몇 주가 소요되어 새로 생성되거나 최근에 업데이트된 콘텐츠의 색인을 생성하는 경우 어떻게 해야 할까요?

마케터가 의존하는 일간 뉴스레터 검색을 받으세요.

약관을 참조하십시오.

크롤링을 최적화하는 7단계

크롤링 최적화는 Googlebot이 중요한 URL을 크롤링하도록 안내하는 것입니다. (재)출판되면 빠릅니다. 아래의 7단계를 따르십시오.

1. 빠르고 건강한 서버 응답 보장

고성능 서버가 중요합니다. 다음과 같은 경우 Googlebot이 속도를 늦추거나 크롤링을 중지합니다.

사이트 크롤링은 성능에 영향을 미칩니다. 예를 들어 크롤링이 많을수록 서버 응답 시간이 느려집니다.
서버는 상당한 수의 오류 또는 연결 시간 초과로 응답합니다.

반대로 더 많은 페이지를 제공할 수 있도록 페이지 로드 속도를 개선하면 Googlebot이 같은 시간에 더 많은 URL을 크롤링할 수 있습니다. 이는 사용자 경험 및 순위 요소인 페이지 속도 외에 추가적인 이점입니다.

아직 지원하지 않았다면 HTTP/2에 대한 지원을 고려하십시오. HTTP/2를 사용하면 서버에서 유사한 부하로 더 많은 URL을 요청할 수 있기 때문입니다.

그러나 성능과 크롤링 볼륨 간의 상관 관계는 어느 정도까지만 입니다 . 사이트마다 다른 이 임계값을 초과하면 서버 성능의 추가 증가가 크롤링 증가와 상관 관계가 없을 것 같습니다.

서버 상태를 확인하는 방법

Google Search Console 크롤링 통계 보고서:

호스트 상태: 녹색 눈금을 표시합니다.
5xx 오류: 1% 미만을 구성합니다.
서버 응답 시간 차트: 300밀리초 미만의 추세입니다.

2. 가치가 낮은 콘텐츠 정리

상당한 양의 사이트 콘텐츠가 오래되었거나 중복되거나 품질이 낮은 경우 크롤링 활동에 대한 경쟁이 발생하여 잠재적으로 새로운 콘텐츠의 인덱싱 또는 업데이트된 콘텐츠의 다시 인덱싱이 지연됩니다.

정기적으로 가치가 낮은 콘텐츠를 청소하면 인덱스 팽창과 키워드 잠식도 감소하고 사용자 경험에 도움이 됩니다. 이것은 SEO가 쉬운 일입니다.

명확한 대체 페이지로 볼 수 있는 다른 페이지가 있는 경우 콘텐츠를 301 리디렉션과 병합합니다. 이를 이해하면 처리를 위한 크롤링 비용이 두 배로 들지만 링크 자산을 위해서는 가치 있는 희생입니다.

동등한 콘텐츠가 없는 경우 301을 사용하면 소프트 404만 생성됩니다. 410(최상) 또는 404(가까운 두 번째) 상태 코드를 사용하여 이러한 콘텐츠를 제거하여 URL을 다시 크롤링하지 않도록 강력한 신호를 보냅니다.

가치가 낮은 콘텐츠를 확인하는 방법

Google Search Console 페이지의 URL 수가 '크롤링됨 - 현재 색인 생성되지 않음' 제외를 보고합니다. 이 값이 높으면 폴더 패턴 또는 기타 문제 지표에 대해 제공된 샘플을 검토하십시오.

3. 인덱싱 제어 검토

Rel=표준 링크 인덱싱 문제를 피하기 위한 강력한 힌트이지만 모든 정규화된 URL이 자체 및 파트너에 대해 하나씩 최소 2회의 크롤링 비용을 들이기 때문에 과도하게 의존하고 결국 크롤링 문제를 일으키게 됩니다.

마찬가지로 noindex robots 지시문은 인덱스 팽창을 줄이는 데 유용하지만 많은 수는 크롤링에 부정적인 영향을 줄 수 있으므로 필요할 때만 사용하십시오.

두 경우 모두 다음과 같이 자문해 보십시오.

이러한 인덱싱 지시문이 SEO 문제를 처리하는 최적의 방법입니까?
일부 URL 경로를 robots.txt에서 통합, 제거 또는 차단할 수 있습니까?

사용하고 있다면 AMP를 장기적인 기술 솔루션으로 진지하게 재고하십시오.

핵심 웹 필수 요소에 초점을 맞춘 페이지 환경 업데이트와 사이트 속도 요구 사항을 충족하는 한 모든 Google 환경에 AMP가 아닌 페이지를 포함하여 AMP가 이중 크롤링할 가치가 있는지 자세히 살펴보세요.

인덱싱 컨트롤에 대한 과도한 의존도를 확인하는 방법

명확한 이유 없이 제외 항목으로 분류된 Google Search Console 범위 보고서의 URL 수:

적절한 표준 태그가 있는 대체 페이지입니다.
noindex 태그에 의해 제외됩니다.
중복, Google이 사용자와 다른 표준을 선택했습니다.
중복 제출된 URL이 표준으로 선택되지 않았습니다.

4. 검색 엔진 스파이더에게 무엇을 언제 크롤링할지 알려줍니다.

Googlebot이 중요한 사이트 URL의 우선 순위를 지정하고 이러한 페이지가 업데이트될 때 통신하는 데 도움이 되는 필수 도구는 XML 사이트맵입니다.

효과적인 크롤러 지침을 위해 다음을 확인하십시오.

색인 생성이 가능하고 SEO에 가치가 있는 URL만 포함하십시오. 일반적으로 SERP에서 가시성에 관심이 있는 "index,follow" 로봇 태그가 있는 200개의 상태 코드, 표준 원본 콘텐츠 페이지입니다.
개별 URL과 사이트맵 자체에 가능한 한 실시간에 가까운 정확한 <lastmod> 타임스탬프 태그를 포함합니다.

Google은 사이트가 크롤링될 때마다 사이트맵을 확인하지 않습니다. 따라서 업데이트될 때마다 Google에 알리도록 하는 것이 가장 좋습니다. 그렇게 하려면 브라우저나 명령줄에서 GET 요청을 다음으로 보내십시오.

또한 robots.txt 파일에 사이트맵 경로를 지정하고 사이트맵 보고서를 사용하여 Google Search Console에 제출합니다.

일반적으로 Google은 사이트맵의 URL을 다른 사이트보다 더 자주 크롤링합니다. 그러나 사이트맵에 있는 URL의 일부가 품질이 낮더라도 Googlebot이 크롤링 제안에 URL을 사용하지 못하게 할 수 있습니다.

XML 사이트맵 및 링크는 일반 크롤링 대기열에 URL을 추가합니다. 두 가지 입력 방법이 있는 우선 순위 크롤링 대기열도 있습니다.

첫째, 채용 공고나 라이브 영상이 있는 사람들의 경우 Google의 Indexing API에 URL을 제출할 수 있습니다.

또는 Microsoft Bing 또는 Yandex의 시선을 사로잡고 싶다면 모든 URL에 IndexNow API를 사용할 수 있습니다. 그러나 내 자체 테스트에서는 URL 크롤링에 제한적인 영향을 미쳤습니다. 따라서 IndexNow를 사용하는 경우 Bingbot의 크롤링 효율성을 모니터링해야 합니다.

둘째, Search Console에서 URL을 검사한 후 수동으로 색인 생성을 요청할 수 있습니다. URL의 일일 할당량은 10개이며 크롤링에는 여전히 몇 시간이 걸릴 수 있습니다. 크롤링 문제의 근원을 찾기 위해 파헤치는 동안 이것을 임시 패치로 보는 것이 가장 좋습니다.

필수 Googlebot이 크롤링 지침을 수행하는지 확인하는 방법

Google Search Console에서 XML 사이트맵은 '성공' 상태를 표시하며 최근에 읽었습니다.

5. 검색 엔진 스파이더에게 크롤링하지 말아야 할 항목을 알려줍니다.

일부 페이지는 사용자 또는 사이트 기능에 중요할 수 있지만 검색 결과에 표시되는 것을 원하지 않습니다. robots.txt 허용 안함으로 인해 이러한 URL 경로가 크롤러의 주의를 분산시키지 않도록 합니다. 여기에는 다음이 포함될 수 있습니다.

API 및 CDN . 예를 들어 Cloudflare 고객인 경우 사이트에 추가되는 /cdn-cgi/ 폴더를 허용하지 않도록 하세요.
중요하지 않은 이미지, 스크립트 또는 스타일 파일 , 이러한 리소스 없이 로드된 페이지가 손실에 크게 영향을 받지 않는 경우.
장바구니와 같은 기능 페이지 .
캘린더 페이지에 의해 생성된 것과 같은 무한 공간 .
매개변수 페이지 . 특히 모든 단일 조합으로 필터링(예: ?price-range=20-50), 재정렬(예: ?sort=) 또는 검색(예: ?q=)하는 패싯 탐색의 항목은 크롤러가 별도의 페이지로 계산합니다.

페이지 매김 매개변수를 완전히 차단하지 않도록 주의하십시오. 특정 지점까지 크롤링 가능한 페이지 매김은 Googlebot이 콘텐츠를 검색하고 내부 링크 자산을 처리하는 데 필수적인 경우가 많습니다. (이유에 대한 자세한 내용은 페이지 매김에 대한 Semrush 웨비나를 확인하십시오.)

추적과 관련하여 매개변수(일명 '?')로 구동되는 UTM 태그를 사용하는 대신 앵커(일명 '#')를 사용합니다. 크롤링하지 않고도 Google Analytics에서 동일한 보고 이점을 제공합니다.

Googlebot이 크롤링하지 않음 지침을 확인하는 방법

Google Search Console에서 '색인됨, 사이트맵에 제출되지 않음' URL 샘플을 검토하세요. 페이지 매김의 처음 몇 페이지를 무시하고 다른 경로를 찾을 수 있습니까? XML 사이트맵에 포함되어야 합니까, 크롤링되지 않도록 차단되어야 합니까, 아니면 허용되어야 합니까?

또한 "발견됨 - 현재 인덱싱되지 않음" 목록을 검토하십시오. robots.txt에서 Google에 가치가 낮거나 전혀 제공하지 않는 모든 URL 경로를 차단합니다.

이를 한 단계 더 발전시키려면 서버 로그 파일의 모든 Googlebot 스마트폰 크롤링에서 가치 없는 경로를 검토하세요.

6. 관련 링크 선별

페이지에 대한 백링크는 SEO의 여러 측면에서 중요하며 크롤링도 예외는 아닙니다. 그러나 특정 페이지 유형에 대해서는 외부 링크를 얻기 어려울 수 있습니다. 예를 들어, 제품과 같은 딥 페이지, 사이트 아키텍처의 하위 수준에 있는 카테고리 또는 기사까지.

반면 관련 내부 링크는 다음과 같습니다.

기술적으로 확장 가능합니다.
크롤링할 페이지의 우선 순위를 지정하라는 Googlebot에 대한 강력한 신호입니다.
딥 페이지 크롤링에 특히 효과적입니다.

탐색경로, 관련 콘텐츠 차단, 빠른 필터 및 잘 선별된 태그 사용은 모두 크롤링 효율성에 상당한 이점이 있습니다. SEO에 중요한 콘텐츠이므로 이러한 내부 링크가 JavaScript에 의존하지 않도록 하고 크롤링 가능한 표준 <a> 링크를 사용하십시오.

이러한 내부 링크는 사용자에게 실제 가치도 추가해야 한다는 점을 염두에 두어야 합니다.

관련 링크 확인 방법

ScreamingFrog의 SEO 스파이더와 같은 도구를 사용하여 전체 사이트를 수동으로 크롤링하여 다음을 찾습니다.

고아 URL.
robots.txt에 의해 차단된 내부 링크.
200이 아닌 상태 코드에 대한 내부 링크.
내부적으로 연결된 색인 생성 불가능한 URL의 비율입니다.

7. 나머지 크롤링 문제 감사

위의 모든 최적화가 완료되고 크롤링 효율성이 최적이 아닌 경우 심층 감사를 수행하십시오.

나머지 Google Search Console 제외 샘플을 검토하여 크롤링 문제를 식별하는 것으로 시작합니다.

이러한 문제가 해결되면 수동 크롤링 도구를 사용하여 Googlebot처럼 사이트 구조의 모든 페이지를 크롤링하여 더 깊이 들어가십시오. 어느 페이지가 크롤링되고 어떤 페이지가 크롤링되지 않는지 이해하려면 Googlebot IP로 범위를 좁힌 로그 파일과 이를 상호 참조하세요.

마지막으로, 최소 4주 이상, 이상적으로는 더 많은 데이터에 대해 Googlebot IP로 좁혀진 로그 파일 분석을 시작합니다.

로그 파일 형식에 익숙하지 않은 경우 로그 분석 도구를 활용하십시오. 궁극적으로 이것은 Google이 사이트를 크롤링하는 방법을 이해하는 가장 좋은 소스입니다.

감사가 완료되고 식별된 크롤링 문제 목록이 있으면 예상 노력 수준과 성능에 미치는 영향을 기준으로 각 문제의 순위를 지정합니다.

참고 : 다른 SEO 전문가는 SERP의 클릭이 방문 페이지 URL의 크롤링을 증가시킨다고 언급했습니다. 그러나 나는 아직 이것을 테스트로 확인할 수 없었다.

크롤링 예산보다 크롤링 효율성 우선 순위 지정

크롤링의 목표는 최대 크롤링을 하거나 웹사이트의 모든 페이지를 반복적으로 크롤링하는 것이 아니라 페이지가 생성되거나 업데이트되는 시점에 최대한 가깝게 SEO 관련 콘텐츠를 크롤링하도록 유도하는 것입니다.

전반적으로 예산은 중요하지 않습니다. 당신이 그것에 투자하는 것이 중요합니다.

이 기사에 표현된 의견은 게스트 작성자의 의견이며 반드시 Search Engine Land가 아닙니다. 직원 저자가 여기에 나열됩니다.