용어집
콘텐츠·전략

중복 콘텐츠

중복 콘텐츠는 동일하거나 매우 유사한 콘텐츠가 여러 URL에 존재하는 상태를 말합니다. 흔히 알려진 것과 달리 대부분의 경우 검색 페널티의 대상이 아니라, 검색엔진이 어떤 URL을 색인하고 평가할지 결정하는 색인·정규화(canonicalization) 문제입니다.

  • 중복 콘텐츠는 동일하거나 매우 유사한 본문이 둘 이상의 URL로 접근되는 상태를 말합니다.
  • 구글 공식 입장은 "중복 콘텐츠 페널티는 없으며, 사이트에 어느 정도 중복이 있는 것은 정상"이라는 것입니다.
  • 실제 문제는 페널티가 아니라 검색엔진이 어떤 URL을 대표로 색인할지 혼란스러워지고 링크·평가 신호가 분산되는 것입니다.
  • 주요 원인은 URL 파라미터, www/비-www, http/https, 트레일링 슬래시, 프린트 뷰 등 같은 콘텐츠로 가는 여러 경로입니다.
  • 해결의 핵심은 canonical 태그, 301 리다이렉트, 그리고 일관된 내부 링크·URL 표기입니다.

중복 콘텐츠란?

중복 콘텐츠는 동일하거나 매우 유사한 콘텐츠가 여러 개의 서로 다른 URL에서 접근되는 상태를 가리킵니다. 검색엔진은 이렇게 중복된 페이지를 하나의 그룹으로 묶은 뒤, 그중 가장 완전하고 유용하다고 판단한 한 버전을 대표(canonical) URL로 선택해 검색 결과에 노출합니다. 나머지 버전은 페널티를 받는 것이 아니라 단지 결과에 표시되지 않을 뿐입니다.

페널티 오해 바로잡기

많은 운영자가 "중복 콘텐츠 페널티"를 두려워하지만, 구글의 공식 입장은 명확합니다. 구글 검색 센트럴은 "대부분의 사람들이 말하는 의미에서의 중복 콘텐츠 페널티 같은 것은 존재하지 않으며, 사이트에 어느 정도의 중복 콘텐츠가 있는 것은 정상이고 스팸 정책 위반이 아니"라고 설명합니다. 구글의 Gary Illyes 역시 "사이트에 어느 정도 중복 콘텐츠가 있는 것은 정상이지만, 어떤 버전이 대표가 되어야 하는지 검색엔진에 최대한 많은 힌트를 주는 것이 좋다"라고 밝힌 바 있습니다.

즉 중복 콘텐츠 자체로 순위가 강등되거나 사이트가 제재받는 것이 아니라, 검색엔진이 어떤 URL을 색인하고 어디에 링크·평가 신호를 귀속할지 결정하지 못해 평가가 분산되는 것이 실제 문제입니다. 또한 동일 콘텐츠의 여러 URL을 크롤링하느라 크롤링 예산(crawl budget)이 낭비될 수 있습니다.

주요 발생 원인

  • URL 파라미터: 추적·정렬·필터 파라미터(?gclid=..., ?sort=price)로 같은 페이지가 여러 주소를 가짐
  • www / 비-www, http / https: 프로토콜·서브도메인 표기 차이로 사실상 동일한 페이지가 분리됨
  • 트레일링 슬래시: /page/page/ 가 별개 URL로 색인됨
  • 프린트 뷰·모바일 전용 URL: 같은 본문을 출력용·기기별 별도 경로로 제공
  • 세션 ID·페이지네이션·대소문자 차이: 동적 생성 URL이 동일 콘텐츠를 반복 노출
  • 크로스 도메인 중복: 신디케이션·제휴 등으로 동일 콘텐츠가 다른 도메인에도 게시됨

해결 방법

구글은 중복 URL을 하나로 통합(consolidate)하기 위한 신호를 강도순으로 안내합니다.

방법신호 강도적합한 상황
301 리다이렉트강함중복 URL을 영구적으로 대표 URL로 통합할 때(www 통일, http→https 등)
rel="canonical" 태그강함(힌트)원본을 남겨둬야 하지만 대표 버전을 지정하고 싶을 때(파라미터·프린트 뷰 등)
사이트맵 등록약함대표로 삼고 싶은 URL만 사이트맵에 포함해 보조 신호 제공

canonical 태그는 절대 URL로 페이지 <head>에 넣습니다.

<link rel="canonical" href="https://example.com/dresses/green-dresses" />

PDF처럼 HTML이 아닌 파일은 HTTP 헤더로 지정할 수 있습니다.

Link: <https://www.example.com/downloads/white-paper.pdf>; rel="canonical"

단, 구글은 rel="canonical" 을 규칙이 아니라 힌트로 취급하므로, 지정한 URL과 다른 페이지를 대표로 선택할 수 있습니다. 영구 이전이 명확한 경우에는 canonical보다 301 리다이렉트가 더 확실한 신호입니다.

실행 체크리스트

  • www/비-www, http/https 중 하나로 도메인 표기를 통일하고 나머지는 301로 리다이렉트합니다.
  • 트레일링 슬래시 정책(붙임 또는 제거)을 정하고 한쪽으로 일관되게 리다이렉트합니다.
  • 파라미터·프린트 뷰 등 변형 URL에는 대표 URL을 가리키는 rel="canonical" 을 절대 경로로 추가합니다.
  • 내부 링크·사이트맵·canonical 태그가 모두 동일한 대표 URL을 가리키도록 일관성을 유지합니다.
  • 구글 서치 콘솔의 페이지 색인 보고서에서 "대체 페이지(적절한 canonical 태그 있음)"와 "구글이 사용자와 다른 canonical 선택" 항목을 점검합니다.
  • 신디케이션·제휴로 콘텐츠를 외부에 제공할 때는 원본을 가리키는 canonical 또는 noindex 협의를 합니다.

참고·출처

관련 용어