용어집
SEO

PageRank

PageRank는 래리 페이지와 세르게이 브린이 1998년에 고안한, 웹 페이지 간의 링크를 '투표'로 간주해 각 페이지의 상대적 중요도를 계산하는 구글의 창립 알고리즘입니다. 공개 툴바 점수는 2016년에 폐지됐으나, 구글은 여전히 내부 랭킹 신호로 PageRank를 사용한다고 밝히고 있습니다.

  • PageRank는 1998년 스탠퍼드 대학의 래리 페이지와 세르게이 브린이 발표한 논문에서 소개된, 구글 검색의 출발점이 된 알고리즘입니다.
  • 핵심 아이디어는 한 페이지로 향하는 링크를 '추천 투표'로 보되, 모든 링크를 똑같이 세지 않고 링크를 건 페이지 자체의 중요도와 그 페이지가 내보내는 링크 수로 가중치를 조정하는 것입니다.
  • 웹 전체를 거대한 링크 그래프로 보고, 무작위로 링크를 클릭하는 가상의 방문자가 특정 페이지에 머물 확률을 반복 계산으로 구합니다.
  • 0~10 척도로 공개되던 툴바 PageRank는 2016년에 폐지됐지만, 구글은 PageRank를 내부 랭킹에 계속 사용한다고 확인했습니다.
  • PageRank 특허는 스탠퍼드 대학이 보유했으며 2019년 9월에 만료됐습니다.

개요

PageRank는 웹 페이지 사이의 링크 구조를 분석해 각 페이지의 상대적 중요도를 수치로 매기는 알고리즘입니다. 기본 발상은 단순합니다. 어떤 페이지가 다른 페이지로부터 링크를 많이 받을수록, 그리고 중요한 페이지로부터 링크를 받을수록 그 페이지도 중요하다고 보는 것입니다. 즉 링크를 일종의 '추천 투표'로 해석하되, 영향력 있는 페이지가 던지는 표에 더 큰 가중치를 부여합니다.

이 알고리즘은 1998년 스탠퍼드 대학의 래리 페이지(Larry Page)와 세르게이 브린(Sergey Brin)이 발표한 논문 "The Anatomy of a Large-Scale Hypertextual Web Search Engine"에서 소개됐으며, 이후 구글 검색엔진의 토대가 됐습니다. 이름은 '웹 페이지(web page)'와 공동 창업자 '래리 페이지(Page)'를 동시에 가리킵니다.

작동 원리

PageRank는 웹 전체를 노드(페이지)와 엣지(링크)로 이뤄진 거대한 그래프로 모델링합니다. 직관적으로는 '무작위 서퍼(random surfer) 모델'로 설명됩니다. 가상의 방문자가 어떤 페이지에서 링크를 무작위로 클릭하며 이동하다가, 일정 확률로 클릭을 멈추고 임의의 페이지로 점프한다고 가정합니다. 이때 각 페이지의 PageRank 값은 그 방문자가 결국 해당 페이지에 머무를 확률에 해당합니다.

계속 링크를 따라갈 확률을 감쇠 계수(damping factor) d로 두는데, 일반적으로 0.85가 쓰입니다. 임의의 페이지로 점프할 확률은 1 - d가 됩니다. 페이지 A의 PageRank는 다음과 같이 표현됩니다.

PR(A) = (1 - d) / N + d * ( PR(B)/L(B) + PR(C)/L(C) + ... )

  d    = 감쇠 계수 (보통 0.85)
  N    = 전체 페이지 수
  L(x) = 페이지 x가 내보내는 링크(아웃바운드) 수

여기서 핵심은 각 페이지가 가진 PageRank를 자신이 내보내는 링크 수로 나눠 전달한다는 점입니다. 링크를 적게 내보내는 페이지가 건 링크일수록 받는 쪽에 더 많은 중요도가 전달됩니다. 모든 페이지의 값이 서로 의존하기 때문에 한 번에 답을 구할 수 없고, 값이 안정될 때까지 같은 계산을 반복하는 반복법(iterative method) 또는 거듭제곱법(power method)으로 수렴시킵니다. 대규모 웹에서도 대략 45~52회 반복이면 수렴하는 것으로 알려져 있습니다.

PageRank는 기존 학술 인용 분석을 확장한 개념이기도 합니다. 모든 링크를 동일하게 세지 않고, 링크를 건 페이지의 링크 수로 정규화한다는 점에서 단순 인용 횟수 집계와 구분됩니다.

역사와 현재

PageRank 특허는 구글이 아니라 스탠퍼드 대학에 귀속됐으며, 2019년 9월 24일자로 관련 특허가 모두 만료됐습니다. 한때 구글은 0~10 척도의 PageRank 점수를 구글 툴바를 통해 일반에 공개했고, SEO 업계는 이 숫자를 페이지 권위의 대표 지표로 삼았습니다.

그러나 구글은 2016년 초 툴바 PageRank 데이터의 공개 표시를 중단한다고 확인했습니다. Search Engine Land 보도(2016년 3월)에 따르면, 구글은 공개 점수 표시를 없애는 것일 뿐 "내부 랭킹 알고리즘에서는 PageRank 데이터를 여전히 사용한다"고 밝혔습니다. 즉 0~10이라는 단순한 외부 점수는 사라졌지만, 실제 내부에서 쓰이는 PageRank는 그보다 훨씬 복잡한 형태로 존속한다는 의미입니다. 위키백과 역시 "PageRank가 구글 웹 검색 도구 전반의 기반을 계속 제공한다"고 정리하고 있습니다.

참고·출처