용어집
SEO

크롤 버짓

크롤 버짓(Crawl Budget)은 구글봇이 특정 기간 동안 한 사이트에서 크롤하려 하고 또 크롤할 수 있는 URL의 양을 말합니다. 서버가 감당할 수 있는 한도(크롤 용량 한도)와 구글이 크롤하고 싶어 하는 정도(크롤 수요)라는 두 요소로 결정됩니다.

  • 크롤 버짓은 구글봇이 일정 기간에 한 사이트에서 크롤하려 하고 크롤할 수 있는 URL의 양으로, 크롤 용량 한도크롤 수요 두 가지로 결정됩니다.
  • 크롤 용량 한도는 사이트 응답 속도(크롤 상태)와 구글의 리소스에 따라 자동으로 오르내립니다.
  • 크롤 수요는 사이트의 인지된 인벤토리, URL의 인기도, 콘텐츠 신선도에 영향을 받습니다.
  • 중복 콘텐츠, 패싯 내비게이션, 소프트 404, 무한 URL 공간이 크롤 버짓을 낭비하는 대표 요인입니다.
  • 대형 사이트에서 중요한 개념이며, 페이지가 발행 당일에 크롤되는 소규모 사이트는 대개 신경 쓸 필요가 없습니다.

개요

크롤 버짓은 구글봇이 특정 기간에 한 사이트에서 크롤하려 하고 또 크롤할 수 있는 URL의 집합을 가리킵니다. 구글 공식 문서는 이를 사이트의 크롤 용량 한도(crawl capacity limit)와 크롤 수요(crawl demand)라는 두 요소가 함께 결정한다고 설명합니다. 즉, 구글봇이 사이트를 얼마나 자주, 얼마나 많은 페이지를 가져갈지를 좌우하는 개념입니다.

이 개념이 실질적으로 중요한 곳은 규모가 큰 사이트입니다. 구글은 다음과 같은 경우에 크롤 버짓 관리를 권장합니다.

  • 매주 변경되는 고유 페이지가 100만 개 이상인 대형 사이트
  • 매일 변경되는 콘텐츠가 1만 개 이상인 중대형 사이트
  • 상당수 URL이 Search Console에서 '발견됨 - 현재 색인이 생성되지 않음' 상태로 보고되는 사이트

반대로 페이지 수가 적거나 발행한 당일에 페이지가 곧바로 크롤되는 소규모 사이트라면 크롤 버짓을 따로 걱정할 필요는 없습니다. 이 경우에는 사이트맵을 최신으로 유지하고 색인 범위를 주기적으로 점검하는 것만으로 충분합니다.

크롤 용량 한도

크롤 용량 한도는 구글봇이 사이트를 크롤할 때 사용하는 동시 병렬 연결의 최대치를 의미합니다. 서버에 과부하를 주지 않도록 구글이 자동으로 산정하며, 다음 요인에 따라 오르내립니다.

  • 크롤 상태: 사이트가 빠르게 응답하면 한도가 올라가고, 서버가 느려지거나 오류를 반환하면 구글봇이 크롤을 줄입니다.
  • 구글의 리소스: 구글이 가진 전체 머신 용량에도 한계가 있어 이에 따라 조정됩니다.

크롤 수요

크롤 수요는 구글이 특정 사이트의 콘텐츠를 얼마나 가져오고 싶어 하는지를 나타냅니다. 공식 문서는 다음 세 가지를 주요 요인으로 듭니다.

  • 인지된 인벤토리: 구글이 사이트에서 크롤할 가치가 있다고 인식하는 URL의 양입니다. 중복 URL이 많으면 크롤 시간을 낭비하게 됩니다.
  • 인기도: 더 인기 있는 URL은 색인을 신선하게 유지하기 위해 더 자주 크롤됩니다.
  • 신선도: 구글 시스템은 콘텐츠 변경을 감지하기 위해 페이지를 다시 크롤합니다.

크롤 버짓 낭비 요인

한정된 크롤 자원이 가치 없는 URL에 소진되면 정작 중요한 페이지의 크롤과 색인이 늦어집니다. 구글이 지목하는 대표적인 낭비 요인은 다음과 같습니다.

  • 패싯 내비게이션과 세션 ID 등으로 생성되는 사실상 동일한 URL의 대량 생성
  • 사이트 내 중복 콘텐츠
  • 소프트 404(실제로는 없는 페이지인데 200 응답을 반환하는 페이지)
  • 해킹된 페이지
  • 달력처럼 끝없이 이어지는 무한 URL 공간
  • 저품질·스팸 콘텐츠

최적화 방법

구글 공식 가이드가 제시하는 크롤 효율 최적화 방법은 다음과 같습니다.

  • 중복 콘텐츠 통합: 고유 URL이 아니라 고유 콘텐츠에 크롤이 집중되도록 중복을 정리합니다.
  • robots.txt로 크롤 차단: 무한 스크롤 변형, 패싯 조합 등 불필요한 URL의 크롤을 막습니다. 단, 단기적인 크롤 재배분 용도로는 권장되지 않습니다.
  • 404/410 반환: 영구히 삭제된 페이지는 404 또는 410 상태 코드를 반환합니다.
  • 소프트 404 제거: 없는 페이지가 200을 반환하지 않도록 정리합니다.
  • 사이트맵 최신 유지: 변경된 URL에는 <lastmod> 태그를 두어 신선도를 알립니다.
  • 리다이렉트 체인 제거: 여러 단계로 이어지는 리다이렉트는 크롤에 악영향을 줍니다.

크롤 버짓을 늘리는 방법

구글에 따르면 크롤 버짓을 늘리는 길은 본질적으로 두 가지뿐입니다. 첫째는 서버의 크롤 처리 용량을 키우는 것이고, 둘째이자 더 중요한 것은 검색 사용자에게 제공하는 콘텐츠의 가치를 높이는 것입니다. 단순히 크롤을 더 받기 위한 기술적 트릭보다, 크롤할 가치가 있는 사이트가 되는 것이 핵심입니다.

실행 체크리스트

  • Search Console의 크롤 통계 보고서로 일일 크롤 요청 수와 평균 응답 시간을 점검합니다.
  • '발견됨 - 현재 색인이 생성되지 않음' 상태의 URL 비중이 높은지 확인합니다.
  • 패싯 내비게이션·세션 ID·정렬 파라미터로 인한 중복 URL 생성을 차단하거나 정규화합니다.
  • 삭제된 페이지가 200(소프트 404)이 아닌 404/410을 반환하는지 검증합니다.
  • 사이트맵에 <lastmod>를 정확히 반영하고 변경 시 갱신합니다.
  • 리다이렉트 체인을 단일 홉으로 정리하고, 서버 응답 속도를 안정적으로 유지합니다.
  • 저품질·중복 페이지는 통합하거나 색인에서 제외해 크롤 자원을 고가치 페이지에 집중합니다.

참고·출처

관련 용어