용어집
SEO

크롤러

크롤러는 웹 페이지를 자동으로 탐색하고 콘텐츠를 수집하는 봇(프로그램)으로, '스파이더'라고도 부릅니다. 검색엔진은 크롤러가 모은 페이지를 색인해 검색 결과를 만들며, Googlebot과 Bingbot이 대표적입니다.

  • 크롤러는 링크를 따라 웹을 자동으로 돌며 페이지를 수집하는 봇(프로그램)으로, 스파이더라고도 부릅니다.
  • 크롤러는 '주체(봇)'이고, 그 봇이 페이지를 수집하는 '행위'는 크롤링(crawling)이라고 구분됩니다.
  • Google의 대표 크롤러는 Googlebot이며, 모바일 우선 색인 정책에 따라 대부분의 요청이 Googlebot 스마트폰 버전에서 발생합니다.
  • Google 공식 문서에 따르면 일반 크롤러는 자동 크롤링 시 항상 robots.txt 규칙을 준수합니다.
  • 크롤러 이름은 위조되기 쉬우므로, Googlebot·Bingbot 검증은 역방향 DNS 조회 등 공식 방법으로 확인해야 합니다.

크롤러란?

크롤러(crawler)는 웹 페이지를 자동으로 방문해 내용을 읽고 수집하는 봇 또는 프로그램입니다. 한 페이지에서 발견한 링크를 따라 다음 페이지로 이동하며 웹을 거미줄처럼 훑기 때문에 '스파이더(spider)' 또는 '봇(bot)'이라고도 불립니다. 검색엔진은 이렇게 크롤러가 모은 페이지를 분석·색인(indexing)한 뒤 검색 결과로 제공하므로, 크롤러는 검색 노출의 출발점이 되는 핵심 구성요소입니다.

여기서 중요한 구분이 있습니다. 크롤러는 페이지를 수집하는 '주체(봇)'를 가리키고, 그 봇이 실제로 페이지를 방문해 수집하는 '행위'는 크롤링(crawling)이라고 부릅니다. 즉 'Googlebot이라는 크롤러가 사이트를 크롤링한다'처럼 사용됩니다.

주요 검색엔진 크롤러

크롤러 이름운영사용도
GooglebotGoogleGoogle 검색·이미지·뉴스·Discover의 기본 크롤러(데스크톱·스마트폰 버전)
Googlebot-ImageGoogle이미지 콘텐츠 전용 크롤러(Google 이미지 검색)
Googlebot-NewsGoogleGoogle 뉴스 크롤링 전용
Google-ExtendedGoogleGemini 등 AI 모델 학습·그라운딩 사용 여부 제어(검색 순위에는 영향 없음)
BingbotMicrosoftBing 검색 색인용 표준 크롤러(데스크톱·모바일 변형)

Google은 위 외에도 동영상 전용 Googlebot-Video, 연구·일회성 크롤링용 GoogleOther 등 목적별 크롤러를 운영합니다. 각 크롤러는 robots.txt에서 사용하는 토큰(user agent token)으로 구분되지만, Googlebot 데스크톱과 스마트폰은 동일한 토큰을 사용하므로 robots.txt로 둘을 선택적으로 차단할 수는 없습니다.

작동 방식

크롤러는 이미 크롤링한 페이지에 있는 링크를 통해 새 URL을 발견합니다. Google 공식 문서는 "링크를 게시하지 않는 것만으로 사이트를 비밀로 유지하기는 거의 불가능하다"고 설명하는데, 리퍼러 정보 등을 통해 주소가 노출될 수 있기 때문입니다. Googlebot은 평균적으로 몇 초에 한 번 이상은 사이트에 접근하지 않도록 크롤링 속도를 조절하며, 지원 파일 유형은 처음 2MB(PDF는 64MB)까지 내려받은 뒤 처리합니다.

Google 검색은 모바일 콘텐츠를 우선 색인하기 때문에, 크롤링 요청의 대부분은 Googlebot 스마트폰 버전에서 발생합니다. 또한 크롤러는 ETag·Last-Modified 같은 HTTP 캐싱 표준을 준수하며, HTTP/1.1과 HTTP/2를 지원합니다.

robots.txt 준수와 크롤러 검증

Google 공식 문서에 따르면 Googlebot 같은 일반 크롤러(common crawlers)는 자동 크롤링 시 항상 robots.txt 규칙을 준수합니다. 다만 광고 관련 AdsBot처럼 사이트 운영자와의 합의가 전제된 특수 크롤러는 전역 규칙(`*`)을 우회할 수 있는 예외가 있습니다.

한편 크롤러를 사칭하는 봇이 많다는 점에 유의해야 합니다. user-agent 헤더에 'Googlebot'이나 'bingbot'이라고 적혀 있어도 그것만으로는 진짜임을 증명하지 못합니다. Microsoft는 Bingbot 검증을 위해 역방향 DNS 조회와 정방향 IP 조회를 권장하며, Google 역시 IP·역방향 DNS 호스트명으로 자사 크롤러를 식별합니다.

참고·출처

관련 용어