크롤링이란? | Search OS

크롤링은 검색엔진의 자동화 봇(예: Googlebot)이 링크와 사이트맵을 따라 웹페이지를 발견하고 내려받는 '행위·과정'입니다.
구글 검색은 크롤링 → 색인(인덱싱) → 검색 결과 게재의 세 단계로 작동하며, 크롤링은 그 첫 단계입니다.
발견(URL 디스커버리) → 가져오기(페치) → 렌더링(자바스크립트 실행)의 흐름으로 진행됩니다.
크롤링은 robots.txt로 제어하지만, 이는 색인을 막는 수단이 아니라 크롤러의 접근을 제어하는 수단입니다.
크롤링을 수행하는 '주체'는 크롤러(봇)이고, 크롤링되기 쉬운 '상태'는 크롤러빌리티이며, 크롤 버짓은 크롤링 '예산'으로 — 크롤링 자체와는 구분되는 개념입니다.

개요

크롤링(Crawling)은 검색엔진이 자동화된 프로그램을 이용해 인터넷의 웹페이지를 발견하고 그 콘텐츠(텍스트·이미지·동영상)를 내려받는 과정입니다. 구글은 공식 문서에서 검색이 크롤링, 색인(인덱싱), 검색 결과 게재의 세 단계로 작동한다고 설명하며, 크롤링을 "Google이 크롤러라는 자동화된 프로그램으로 인터넷에서 찾은 페이지의 텍스트, 이미지, 동영상을 다운로드하는" 단계로 정의합니다. 즉 크롤링은 색인의 전 단계이며, 한 페이지가 검색에 노출되려면 먼저 크롤링되고 그다음 색인되어야 합니다.

여기서 크롤링은 '행위 또는 과정'을 가리키는 말입니다. 이를 수행하는 주체인 크롤러(crawler, 봇), 사이트가 얼마나 잘 크롤링될 수 있는지를 뜻하는 크롤러빌리티(crawlability), 검색엔진이 한 사이트에 할당하는 크롤링 분량인 크롤 버짓(crawl budget)과는 구분해 이해하셔야 합니다.

작동 흐름

구글 문서를 기준으로 크롤링은 크게 세 단계로 진행됩니다.

발견(URL 디스커버리): 검색엔진은 이미 알고 있는 페이지에서 링크를 추출해 새 페이지를 찾습니다. 구글은 "카테고리 페이지 같은 허브 페이지가 새 블로그 글로 링크를 거는" 경우를 예로 듭니다. 사이트 운영자가 제출한 사이트맵 역시 발견 경로입니다.
가져오기(페치): 봇이 해당 URL에 HTTP로 접근해 페이지를 내려받습니다. 구글은 평균적으로 한 사이트를 몇 초에 한 번 정도 크롤링하며, 봇 종류는 HTTP user-agent 헤더로 구분할 수 있습니다.
렌더링: 구글봇은 페이지를 가져온 뒤 최신 버전의 Chrome으로 렌더링하면서 자바스크립트를 실행합니다. 구글은 "웹사이트가 콘텐츠를 표시하기 위해 자바스크립트에 의존하는 경우가 많고, 렌더링하지 않으면 Google이 그 콘텐츠를 보지 못할 수 있다"고 설명합니다.

구글봇은 모바일과 데스크톱 두 종류가 있으며, 구글은 모바일 우선 색인 정책에 따라 "대부분의 크롤 요청을 모바일 크롤러로" 수행합니다.

크롤링 제어

운영자는 봇의 크롤링 접근을 robots.txt로 제어할 수 있습니다. 구글은 robots.txt를 "크롤러가 사이트에서 접근할 수 있는 URL을 알려주는" 파일로 정의하며, 주로 서버 과부하를 막거나 중요하지 않은 페이지의 크롤링을 줄이는 용도로 사용합니다.

User-agent: *
Disallow: /private/

Sitemap: https://example.com/sitemap.xml

다만 robots.txt는 크롤링만 제어할 뿐 색인을 막는 수단이 아닙니다. 구글은 robots.txt가 "웹페이지를 Google에서 제외하기 위한 메커니즘이 아니"라고 명시하며, 다른 사이트가 링크를 걸면 차단된 URL도 설명 스니펫 없이 검색 결과에 나타날 수 있다고 경고합니다. 검색 결과에서 페이지를 빼려면 noindex를 사용해야 하는데, 이는 크롤링은 허용하되 색인에서 제외하는 방식입니다.

크롤링과 인접 개념 구분

구분	의미	품사·성격
크롤링(Crawling)	봇이 페이지를 발견·수집하는 과정	행위·과정
크롤러(Crawler)	크롤링을 수행하는 봇(예: Googlebot)	주체·프로그램
크롤러빌리티(Crawlability)	사이트가 크롤링되기 쉬운 정도	상태·속성
크롤 버짓(Crawl budget)	검색엔진이 한 사이트에 할당하는 크롤링 분량	자원·예산

근거

이 문서의 정의와 흐름은 모두 Google Search Central 공식 문서에 근거합니다. "In-Depth Guide to How Google Search Works"는 크롤링·색인·게재 3단계와 URL 디스커버리·렌더링을 설명하고, "What Is Googlebot"은 모바일·데스크톱 크롤러 구분과 접근 빈도를 다루며, "robots.txt Introduction"은 크롤링 제어와 색인 비차단 원칙을 명시합니다.

크롤링

개요

작동 흐름

크롤링 제어

크롤링과 인접 개념 구분

근거

참고·출처

관련 용어