크롤러빌리티
크롤러빌리티(Crawlability)는 검색엔진 봇이 사이트의 페이지에 접근해서 콘텐츠를 크롤할 수 있는 정도, 즉 '크롤 가능한 용이성'을 뜻합니다. 페이지가 발견·접근될 수 있어야 검색 결과에 노출되는 첫 단계가 시작됩니다.
- 크롤러빌리티는 Googlebot 같은 검색엔진 봇이 페이지에 접근하고 크롤할 수 있는 정도를 가리키는 사이트의 속성입니다.
- 크롤링(봇이 페이지를 읽는 행위)이나 크롤러(봇 자체)와 달리, 크롤러빌리티는 '크롤이 얼마나 잘 되는가'라는 가능성·용이성을 의미합니다.
- robots.txt 차단, 끊긴 내부 링크, 고립(orphan) 페이지, 서버 오류 등이 크롤러빌리티를 저해합니다.
- 크롤이 가능해야 인덱싱이 시작되므로, 크롤러빌리티는 인덱서빌리티(색인 가능성)의 전제 조건입니다.
- Google Search Console, Ahrefs Site Audit 같은 도구로 진단하고 사이트 구조·링크·robots.txt를 점검하여 개선합니다.
개요
크롤러빌리티(Crawlability)는 Googlebot을 비롯한 검색엔진 크롤러가 웹사이트의 페이지와 리소스에 접근하여 그 내용을 크롤할 수 있는 정도를 뜻합니다. Ahrefs는 이를 "검색엔진 크롤러(예: Googlebot)가 웹사이트의 페이지와 리소스에 접근할 수 있는 능력"이라고 정의합니다. 검색 트래픽을 받으려는 모든 사이트에 크롤러빌리티는 필수 조건이며, 크롤이 가능한 페이지만이 이후 색인되고 검색 결과에 나타날 수 있습니다.
여기서 한 가지 구분이 중요합니다. 크롤링은 봇이 실제로 페이지를 방문해 읽는 '행위'이고, 크롤러는 그 일을 수행하는 봇 자체입니다. 반면 크롤러빌리티는 사이트나 페이지가 '얼마나 잘 크롤될 수 있는가'를 나타내는 속성·정도입니다. 따라서 "이 페이지는 크롤러빌리티가 낮다"는 말은 봇이 접근·발견하기 어려운 상태에 있다는 의미입니다.
크롤러빌리티와 인덱서빌리티의 차이
크롤러빌리티와 인덱서빌리티(Indexability, 색인 가능성)는 자주 혼용되지만 검색엔진 처리 과정의 서로 다른 단계입니다. 크롤러빌리티는 봇이 페이지에 '접근'할 수 있는가에 관한 것이고, 인덱서빌리티는 그 페이지가 검색엔진의 색인에 '포함'될 수 있는가에 관한 것입니다. Ahrefs는 "웹페이지는 크롤은 가능하지만 색인은 불가능할 수 있다"고 설명합니다.
| 구분 | 크롤러빌리티 | 인덱서빌리티 |
|---|---|---|
| 의미 | 봇이 페이지에 접근·크롤할 수 있는 정도 | 페이지가 색인에 포함될 수 있는 자격 |
| 처리 단계 | 발견·접근(앞 단계) | 색인 등록(뒤 단계) |
| 주요 저해 요인 | robots.txt 차단, 끊긴 링크, 고립 페이지, 서버 오류 | noindex 태그, 잘못된 canonical, 중복 콘텐츠 |
| 관계 | 인덱싱의 전제 조건 | 크롤 이후에 평가됨 |
핵심은 순서입니다. 페이지가 크롤되지 않으면 애초에 색인 대상이 될 수 없습니다. 반대로 페이지가 크롤은 되더라도 noindex 지시어, 잘못된 canonical, 중복 콘텐츠 판정 등으로 색인에서 제외될 수 있습니다. 검색 결과에 노출되려면 두 조건이 모두 충족되어야 합니다.
크롤러빌리티 저해 요인
봇의 접근·발견을 막는 대표적인 요인은 다음과 같습니다.
- robots.txt 차단: robots.txt는 크롤러가 사이트의 어느 부분에 접근할 수 있고 없는지를 알려줍니다. Disallow로 막힌 URL은 크롤될 수 없습니다.
- 끊긴 내부 링크: 깨진 링크에서 봇이 막히면 사이트의 나머지 영역을 탐색하기 어려워집니다.
- 고립(orphan) 페이지: 사이트맵에 없고 내부 링크로도 연결되지 않은 페이지는 크롤러가 발견하지 못합니다.
- nofollow 링크: Googlebot은 rel="nofollow" 속성이 붙은 링크를 따라가지 않으므로, 그런 링크로만 연결된 페이지는 발견되지 않습니다.
- 서버 오류·접근 제한: 5xx 서버 오류, 느린 응답, 로그인 장벽, 특정 user-agent·IP 차단 등은 봇의 접근 자체를 막습니다.
진단과 개선
크롤러빌리티 문제는 SEO 진단 도구로 점검합니다. Google Search Console은 크롤·색인 현황과 발견된 오류를 보여주고, Ahrefs Site Audit이나 Webmaster Tools는 사이트 전체를 크롤하여 문제를 카테고리별로 분류해 줍니다. Ahrefs는 이런 도구가 "왜 사이트가 크롤되지 못하는지 이해하고, 사이트 구조와 설정을 표적 수정하도록 돕는다"고 설명합니다.
개선의 기본 방향은 다음과 같습니다. 끊긴 링크를 고치거나 제거하고, 논리적 계층 구조와 일관된 내부 링크로 중요한 콘텐츠가 몇 번의 클릭 안에 닿도록 사이트 구조를 정리합니다. 페이지 속도를 높이면 봇이 더 많은 페이지를 효율적으로 크롤할 수 있습니다. Google은 사이트맵으로 "새롭거나 업데이트된 페이지를 Google에 알리고", 링크를 크롤 가능하게 만들 것을 권장합니다. 대규모 사이트라면 크롤 예산(crawl budget) 관리도 함께 고려합니다.
실행 체크리스트
- robots.txt에서 크롤되어야 할 중요 페이지가 Disallow로 막혀 있지 않은지 확인합니다.
- XML 사이트맵을 제출하고 새 페이지·변경 페이지가 반영되도록 유지합니다.
- 끊긴 내부 링크를 찾아 수정하거나 제거합니다.
- 고립 페이지를 내부 링크로 연결하여 봇이 발견할 수 있게 합니다.
- 중요한 페이지로 가는 경로에 nofollow가 걸려 있지 않은지 점검합니다.
- 서버 응답 코드(5xx)·응답 속도를 모니터링하여 접근 장애를 제거합니다.
- Google Search Console·Ahrefs Site Audit으로 크롤 오류를 정기적으로 진단합니다.