인덱스 블로트
인덱스 블로트(Index Bloat)는 저가치·중복·얇은 페이지가 검색엔진 색인에 과도하게 쌓여 크롤 효율과 사이트 품질 평가를 저해하는 상태를 의미합니다. 색인된 페이지의 수가 아니라 품질이 문제의 핵심입니다.
- 인덱스 블로트는 사용자에게 가치가 거의 없는 저품질·중복·얇은 URL이 검색엔진 색인에 과도하게 포함된 상태를 가리킵니다.
- 핵심 문제는 페이지 수가 아니라 품질이며, 패싯 내비게이션·태그 아카이브·URL 파라미터·페이지네이션이 주요 원인입니다.
- 크롤 예산이 저가치 페이지에 소모되어 중요한 페이지의 색인 빈도가 떨어지고, 사이트 전체 권위가 희석됩니다.
- 해결의 기본 축은 noindex(색인 제외), canonical(중복 통합), robots.txt(크롤 차단), 콘텐츠 정리(통합·삭제·리다이렉트)입니다.
- 진단은 Google Search Console의 페이지 리포트와 Ahrefs·Semrush 사이트 감사를 활용해 의도한 색인과 실제 색인의 차이를 찾는 방식으로 진행합니다.
개요
인덱스 블로트는 웹사이트의 검색엔진 색인에 사용자 가치가 거의 없는 페이지가 과도하게 포함된 상태를 의미합니다. Ahrefs는 이를 "검색엔진 색인이 사용자에게 가치가 거의 없거나 전혀 없는 페이지를 과도하게 포함한 상태"로 정의합니다. Search Engine Land는 한 걸음 더 나아가 "인덱스 블로트는 몇 개의 페이지가 색인되었는가의 문제가 아니라 품질의 문제"라고 강조합니다. 즉 색인된 URL의 절대 수가 많다는 사실 자체가 아니라, 그중 저가치·중복·얇은 페이지의 비중이 핵심 지표입니다.
문제의 본질은 크롤 예산(crawl budget) 낭비입니다. 검색엔진은 한정된 자원으로 사이트를 크롤하므로, 정크 페이지에 자원이 소모되면 정작 중요한 페이지가 충분히 자주 크롤·색인되지 못합니다. 또한 얇거나 중복된 페이지가 다수 존재하면 사이트 권위가 희석되고 키워드 카니발리제이션 문제가 발생할 수 있습니다.
흔한 원인
인덱스 블로트는 대부분 자동 생성되거나 통제되지 않은 URL 패턴에서 비롯됩니다. 대표적인 원인은 다음과 같습니다.
- 패싯 내비게이션 및 필터 파라미터: 색상·크기·브랜드·가격 등 필터 조합마다 고유 URL이 생성되어 본질적으로 동일한 콘텐츠의 변형이 무수히 색인됩니다. 이커머스·디렉터리 사이트에서 가장 큰 위협입니다.
- 태그 페이지·택소노미 아카이브: 자동 생성되는 태그·카테고리 아카이브(WordPress 태그, Shopify 컬렉션 등 CMS 기본값)가 얇은 페이지를 양산합니다.
- URL 파라미터: 세션 ID, 트래킹 파라미터, 정렬·검색 함수에서 발생하는 동적 URL이 중복·근사 중복 페이지를 만듭니다.
- 페이지네이션: 불필요한 페이지 분할이 색인을 부풀립니다.
- 얇은 콘텐츠: 빈 카테고리 페이지, 내부 검색 결과, 자동 생성 템플릿, 통제되지 않은 프로그래매틱 SEO 확장으로 생성된 저가치 페이지가 포함됩니다.
해결 방법
해결의 핵심은 페이지의 성격에 맞는 처리 방식을 선택하는 것입니다. Google Search Central 커뮤니티 논의에서 정리된 원칙에 따라 canonical과 noindex의 용도를 구분합니다.
- noindex 메타 태그: 사용자가 검색을 통해 절대 도달할 필요가 없는 페이지(내부 검색 결과, 일부 아카이브)를 색인에서 완전히 제외합니다. 중요한 페이지를 위한 크롤 예산을 보존합니다.
- canonical 태그: 사용자가 여러 URL로 접근할 수 있는 정당한 중복 콘텐츠를 기본(canonical) 버전으로 통합합니다. 페이지는 크롤·접근이 유지되며 canonical 버전만 색인됩니다.
- robots.txt disallow: 파라미터 기반 URL의 크롤 자체를 차단합니다.
- 콘텐츠 정리(pruning): 저가치 페이지를 통합·삭제·리다이렉트하고, 영구 삭제 페이지는 410(Gone) 또는 404로 응답합니다.
- 확장 가드레일: 향후 사이트 확장 시 블로트가 재발하지 않도록 자동화 규칙을 마련합니다.
진단과 근거
진단은 의도한 색인과 실제 색인의 차이를 측정하는 데서 출발합니다.
- Google Search Console 페이지 리포트: 색인됨·색인 안 됨 URL과 그 사유를 보여줍니다(Search Engine Land).
- site: 검색 연산자: 실제로 색인된 페이지의 대략적 규모를 빠르게 확인합니다.
- Ahrefs·Semrush 사이트 감사: 중복 콘텐츠, 얇은 페이지, canonical 이슈, 고아 페이지를 자동으로 식별합니다(Ahrefs, Search Engine Land).
Search Engine Land는 분기별 정기 감사와 지속적 모니터링을 통해 크롤 효율이 높은 슬림한 구조를 유지하라고 권고합니다.
실행 체크리스트
- site: 연산자와 Google Search Console 페이지 리포트로 실제 색인 규모와 색인/비색인 사유를 파악합니다.
- Ahrefs 또는 Semrush 사이트 감사로 중복·얇은 페이지·canonical 이슈를 추출합니다.
- 패싯·정렬·세션 파라미터 URL을 식별하고 robots.txt disallow 또는 파라미터 처리 규칙을 적용합니다.
- 정당한 중복은 canonical로 기본 URL에 통합하고, 검색 유입이 불필요한 페이지는 noindex 처리합니다.
- 얇은 페이지는 통합·삭제·리다이렉트하고, 영구 삭제 페이지는 410 또는 404로 응답합니다.
- 분기별 정기 감사와 모니터링으로 재발을 방지하고 신규 페이지 생성에 가드레일을 설정합니다.