크롤러
크롤러는 웹 페이지를 자동으로 탐색하고 콘텐츠를 수집하는 봇(프로그램)으로, '스파이더'라고도 부릅니다. 검색엔진은 크롤러가 모은 페이지를 색인해 검색 결과를 만들며, Googlebot과 Bingbot이 대표적입니다.
- 크롤러는 링크를 따라 웹을 자동으로 돌며 페이지를 수집하는 봇(프로그램)으로, 스파이더라고도 부릅니다.
- 크롤러는 '주체(봇)'이고, 그 봇이 페이지를 수집하는 '행위'는 크롤링(crawling)이라고 구분됩니다.
- Google의 대표 크롤러는 Googlebot이며, 모바일 우선 색인 정책에 따라 대부분의 요청이 Googlebot 스마트폰 버전에서 발생합니다.
- Google 공식 문서에 따르면 일반 크롤러는 자동 크롤링 시 항상 robots.txt 규칙을 준수합니다.
- 크롤러 이름은 위조되기 쉬우므로, Googlebot·Bingbot 검증은 역방향 DNS 조회 등 공식 방법으로 확인해야 합니다.
크롤러란?
크롤러(crawler)는 웹 페이지를 자동으로 방문해 내용을 읽고 수집하는 봇 또는 프로그램입니다. 한 페이지에서 발견한 링크를 따라 다음 페이지로 이동하며 웹을 거미줄처럼 훑기 때문에 '스파이더(spider)' 또는 '봇(bot)'이라고도 불립니다. 검색엔진은 이렇게 크롤러가 모은 페이지를 분석·색인(indexing)한 뒤 검색 결과로 제공하므로, 크롤러는 검색 노출의 출발점이 되는 핵심 구성요소입니다.
여기서 중요한 구분이 있습니다. 크롤러는 페이지를 수집하는 '주체(봇)'를 가리키고, 그 봇이 실제로 페이지를 방문해 수집하는 '행위'는 크롤링(crawling)이라고 부릅니다. 즉 'Googlebot이라는 크롤러가 사이트를 크롤링한다'처럼 사용됩니다.
주요 검색엔진 크롤러
| 크롤러 이름 | 운영사 | 용도 |
|---|---|---|
| Googlebot | Google 검색·이미지·뉴스·Discover의 기본 크롤러(데스크톱·스마트폰 버전) | |
| Googlebot-Image | 이미지 콘텐츠 전용 크롤러(Google 이미지 검색) | |
| Googlebot-News | Google 뉴스 크롤링 전용 | |
| Google-Extended | Gemini 등 AI 모델 학습·그라운딩 사용 여부 제어(검색 순위에는 영향 없음) | |
| Bingbot | Microsoft | Bing 검색 색인용 표준 크롤러(데스크톱·모바일 변형) |
Google은 위 외에도 동영상 전용 Googlebot-Video, 연구·일회성 크롤링용 GoogleOther 등 목적별 크롤러를 운영합니다. 각 크롤러는 robots.txt에서 사용하는 토큰(user agent token)으로 구분되지만, Googlebot 데스크톱과 스마트폰은 동일한 토큰을 사용하므로 robots.txt로 둘을 선택적으로 차단할 수는 없습니다.
작동 방식
크롤러는 이미 크롤링한 페이지에 있는 링크를 통해 새 URL을 발견합니다. Google 공식 문서는 "링크를 게시하지 않는 것만으로 사이트를 비밀로 유지하기는 거의 불가능하다"고 설명하는데, 리퍼러 정보 등을 통해 주소가 노출될 수 있기 때문입니다. Googlebot은 평균적으로 몇 초에 한 번 이상은 사이트에 접근하지 않도록 크롤링 속도를 조절하며, 지원 파일 유형은 처음 2MB(PDF는 64MB)까지 내려받은 뒤 처리합니다.
Google 검색은 모바일 콘텐츠를 우선 색인하기 때문에, 크롤링 요청의 대부분은 Googlebot 스마트폰 버전에서 발생합니다. 또한 크롤러는 ETag·Last-Modified 같은 HTTP 캐싱 표준을 준수하며, HTTP/1.1과 HTTP/2를 지원합니다.
robots.txt 준수와 크롤러 검증
Google 공식 문서에 따르면 Googlebot 같은 일반 크롤러(common crawlers)는 자동 크롤링 시 항상 robots.txt 규칙을 준수합니다. 다만 광고 관련 AdsBot처럼 사이트 운영자와의 합의가 전제된 특수 크롤러는 전역 규칙(`*`)을 우회할 수 있는 예외가 있습니다.
한편 크롤러를 사칭하는 봇이 많다는 점에 유의해야 합니다. user-agent 헤더에 'Googlebot'이나 'bingbot'이라고 적혀 있어도 그것만으로는 진짜임을 증명하지 못합니다. Microsoft는 Bingbot 검증을 위해 역방향 DNS 조회와 정방향 IP 조회를 권장하며, Google 역시 IP·역방향 DNS 호스트명으로 자사 크롤러를 식별합니다.