크롤링
크롤링은 검색엔진 봇이 링크와 사이트맵을 따라 웹페이지를 발견하고 내려받는 과정입니다. 콘텐츠를 분석해 검색 데이터베이스에 저장하는 색인(인덱싱)의 바로 앞 단계로, 크롤링되지 않은 페이지는 검색 결과에 노출될 수 없습니다.
- 크롤링은 검색엔진의 자동화 봇(예: Googlebot)이 링크와 사이트맵을 따라 웹페이지를 발견하고 내려받는 '행위·과정'입니다.
- 구글 검색은 크롤링 → 색인(인덱싱) → 검색 결과 게재의 세 단계로 작동하며, 크롤링은 그 첫 단계입니다.
- 발견(URL 디스커버리) → 가져오기(페치) → 렌더링(자바스크립트 실행)의 흐름으로 진행됩니다.
- 크롤링은
robots.txt로 제어하지만, 이는 색인을 막는 수단이 아니라 크롤러의 접근을 제어하는 수단입니다. - 크롤링을 수행하는 '주체'는 크롤러(봇)이고, 크롤링되기 쉬운 '상태'는 크롤러빌리티이며, 크롤 버짓은 크롤링 '예산'으로 — 크롤링 자체와는 구분되는 개념입니다.
개요
크롤링(Crawling)은 검색엔진이 자동화된 프로그램을 이용해 인터넷의 웹페이지를 발견하고 그 콘텐츠(텍스트·이미지·동영상)를 내려받는 과정입니다. 구글은 공식 문서에서 검색이 크롤링, 색인(인덱싱), 검색 결과 게재의 세 단계로 작동한다고 설명하며, 크롤링을 "Google이 크롤러라는 자동화된 프로그램으로 인터넷에서 찾은 페이지의 텍스트, 이미지, 동영상을 다운로드하는" 단계로 정의합니다. 즉 크롤링은 색인의 전 단계이며, 한 페이지가 검색에 노출되려면 먼저 크롤링되고 그다음 색인되어야 합니다.
여기서 크롤링은 '행위 또는 과정'을 가리키는 말입니다. 이를 수행하는 주체인 크롤러(crawler, 봇), 사이트가 얼마나 잘 크롤링될 수 있는지를 뜻하는 크롤러빌리티(crawlability), 검색엔진이 한 사이트에 할당하는 크롤링 분량인 크롤 버짓(crawl budget)과는 구분해 이해하셔야 합니다.
작동 흐름
구글 문서를 기준으로 크롤링은 크게 세 단계로 진행됩니다.
- 발견(URL 디스커버리): 검색엔진은 이미 알고 있는 페이지에서 링크를 추출해 새 페이지를 찾습니다. 구글은 "카테고리 페이지 같은 허브 페이지가 새 블로그 글로 링크를 거는" 경우를 예로 듭니다. 사이트 운영자가 제출한 사이트맵 역시 발견 경로입니다.
- 가져오기(페치): 봇이 해당 URL에 HTTP로 접근해 페이지를 내려받습니다. 구글은 평균적으로 한 사이트를 몇 초에 한 번 정도 크롤링하며, 봇 종류는 HTTP user-agent 헤더로 구분할 수 있습니다.
- 렌더링: 구글봇은 페이지를 가져온 뒤 최신 버전의 Chrome으로 렌더링하면서 자바스크립트를 실행합니다. 구글은 "웹사이트가 콘텐츠를 표시하기 위해 자바스크립트에 의존하는 경우가 많고, 렌더링하지 않으면 Google이 그 콘텐츠를 보지 못할 수 있다"고 설명합니다.
구글봇은 모바일과 데스크톱 두 종류가 있으며, 구글은 모바일 우선 색인 정책에 따라 "대부분의 크롤 요청을 모바일 크롤러로" 수행합니다.
크롤링 제어
운영자는 봇의 크롤링 접근을 robots.txt로 제어할 수 있습니다. 구글은 robots.txt를 "크롤러가 사이트에서 접근할 수 있는 URL을 알려주는" 파일로 정의하며, 주로 서버 과부하를 막거나 중요하지 않은 페이지의 크롤링을 줄이는 용도로 사용합니다.
User-agent: *
Disallow: /private/
Sitemap: https://example.com/sitemap.xml
다만 robots.txt는 크롤링만 제어할 뿐 색인을 막는 수단이 아닙니다. 구글은 robots.txt가 "웹페이지를 Google에서 제외하기 위한 메커니즘이 아니"라고 명시하며, 다른 사이트가 링크를 걸면 차단된 URL도 설명 스니펫 없이 검색 결과에 나타날 수 있다고 경고합니다. 검색 결과에서 페이지를 빼려면 noindex를 사용해야 하는데, 이는 크롤링은 허용하되 색인에서 제외하는 방식입니다.
크롤링과 인접 개념 구분
| 구분 | 의미 | 품사·성격 |
|---|---|---|
| 크롤링(Crawling) | 봇이 페이지를 발견·수집하는 과정 | 행위·과정 |
| 크롤러(Crawler) | 크롤링을 수행하는 봇(예: Googlebot) | 주체·프로그램 |
| 크롤러빌리티(Crawlability) | 사이트가 크롤링되기 쉬운 정도 | 상태·속성 |
| 크롤 버짓(Crawl budget) | 검색엔진이 한 사이트에 할당하는 크롤링 분량 | 자원·예산 |
근거
이 문서의 정의와 흐름은 모두 Google Search Central 공식 문서에 근거합니다. "In-Depth Guide to How Google Search Works"는 크롤링·색인·게재 3단계와 URL 디스커버리·렌더링을 설명하고, "What Is Googlebot"은 모바일·데스크톱 크롤러 구분과 접근 빈도를 다루며, "robots.txt Introduction"은 크롤링 제어와 색인 비차단 원칙을 명시합니다.