인덱싱
인덱싱(Indexing)은 검색엔진이 크롤링·렌더링한 페이지의 콘텐츠를 분석해 구글 색인(데이터베이스)에 저장하는 과정을 의미합니다. 크롤링으로 페이지를 발견한 뒤 이어지는 단계로, 색인에 저장돼야 검색 결과에 노출될 수 있습니다.
- 인덱싱은 크롤·렌더한 페이지를 분석해 구글 색인(거대한 데이터베이스)에 저장하는 과정입니다.
- 크롤링(페이지 발견)의 다음 단계이며, 색인에 들어가야 검색 결과 후보가 됩니다.
- 구글은 인덱싱 과정에서 텍스트·제목·alt 속성·이미지·동영상 등을 분석하고, 중복 페이지 중 대표(canonical)를 선정하며, 언어·지역·페이지 사용성 같은 신호를 수집합니다.
- noindex 규칙으로 특정 페이지의 색인 등록을 제어할 수 있으나, robots.txt로 차단된 페이지에서는 효과가 없습니다.
- 인덱싱은 보장되지 않으며, 처리된 모든 페이지가 색인에 등록되지는 않습니다.
인덱싱 개요
인덱싱은 검색엔진이 크롤링·렌더링을 거친 페이지의 내용을 파악해 구글 색인이라는 거대한 데이터베이스에 저장하는 과정을 가리킵니다. 구글 문서에서는 이를 "페이지가 크롤링된 후 구글이 그 페이지가 무엇에 관한 것인지 이해하려고 시도하는 단계"로 설명합니다. 즉 인덱싱은 페이지를 찾아내는 크롤링의 바로 다음 단계이며, 색인에 저장돼야만 해당 페이지가 검색 결과에 표시될 후보가 될 수 있습니다.
여기서 개념을 구분할 필요가 있습니다. 크롤링은 페이지를 발견하고 가져오는 행위이고, 인덱서빌리티는 페이지가 색인될 수 있는 상태인지(색인 가능 정도)를 뜻합니다. 반면 인덱싱은 분석한 페이지를 실제로 색인에 저장하는 그 과정 자체를 의미합니다. 발견되었다고 해서 곧바로 색인되는 것은 아니며, 구글은 "인덱싱은 보장되지 않으며 구글이 처리하는 모든 페이지가 색인되는 것은 아니다"라고 명시합니다.
인덱싱 작동 방식
구글봇이 페이지를 가져온 뒤에는 최신 버전의 크롬으로 자바스크립트를 실행하는 렌더링 단계가 이어집니다. 많은 웹사이트가 자바스크립트로 콘텐츠를 채우기 때문에, 렌더링 없이는 구글이 그 콘텐츠를 보지 못할 수 있습니다. 렌더링이 끝나면 인덱싱 단계가 시작됩니다.
인덱싱 과정에서 구글은 여러 유형의 콘텐츠와 요소를 분석합니다. 구글 문서에 따르면 이 단계에서 "텍스트 콘텐츠와 title 요소·alt 속성 같은 핵심 콘텐츠 태그와 속성, 이미지, 동영상 등"을 처리합니다. 또한 서로 비슷한 페이지들을 묶어 그중 가장 대표적인 페이지를 canonical로 선정하고, 나머지는 대체 버전으로 처리합니다. 이와 함께 페이지의 언어, 콘텐츠가 해당하는 국가, 페이지 사용성 같은 신호도 수집합니다.
인덱싱 제어: noindex
특정 페이지가 색인에 등록되지 않도록 제어하려면 noindex 규칙을 사용합니다. 구글봇이 페이지를 크롤링하고 이 태그나 헤더를 추출하면, 다른 사이트가 링크를 걸고 있더라도 해당 페이지를 검색 결과에서 완전히 제외합니다. 구현 방식은 두 가지입니다.
| 구현 방식 | 예시 | 용도 |
|---|---|---|
| 메타 태그 | head 영역의 robots 메타 태그 | HTML 페이지 |
| HTTP 응답 헤더 | X-Robots-Tag 헤더 | PDF·이미지 등 비-HTML 리소스 포함 |
<meta name="robots" content="noindex">X-Robots-Tag: noindex여기에는 중요한 전제가 있습니다. noindex 규칙이 효과를 내려면 해당 페이지나 리소스가 robots.txt로 차단되지 않아야 하며, 크롤러가 접근할 수 있어야 합니다. robots.txt로 접근이 막히면 구글봇이 페이지를 읽지 못해 noindex 지시문을 발견하지 못하고, 결국 외부 링크 등을 통해 페이지가 색인에 남을 수 있습니다.
색인되지 않는 이유
처리된 모든 페이지가 색인에 등록되지는 않습니다. 구글이 제시하는 대표적인 원인은 다음과 같습니다.
- 콘텐츠 품질이 낮은 경우
- robots 메타 규칙(noindex 등)이 색인을 막는 경우
- 웹사이트 디자인이 인덱싱을 어렵게 만드는 경우
근거
본 문서의 인덱싱 정의, 크롤링·렌더링·인덱싱의 단계 관계, 인덱싱 과정에서 분석되는 요소(텍스트·태그·이미지·동영상), canonical 선정, 언어·국가·사용성 신호 수집, 그리고 인덱싱이 보장되지 않는다는 설명은 구글 검색 센트럴의 "구글 검색의 작동 방식" 공식 문서에 근거합니다. noindex 규칙의 동작, 메타 태그·X-Robots-Tag 헤더 구현 방식, robots.txt로 차단되면 noindex가 무효라는 전제는 구글 검색 센트럴의 "색인 생성 차단" 공식 문서에 근거합니다.