용어집
SEO

BERT

BERT(Bidirectional Encoder Representations from Transformers)는 구글이 개발한 트랜스포머 기반 자연어 이해 모델로, 단어를 앞뒤 문맥과 함께 양방향으로 읽어 전치사처럼 미묘하게 의미를 바꾸는 요소까지 파악합니다. 2019년 구글 검색에 적용되어 대화형·롱테일 질의의 의도를 더 정확히 해석하게 되었습니다.

  • BERT는 Bidirectional Encoder Representations from Transformers의 약자로, 단어를 앞뒤 양방향 문맥과 함께 해석하는 자연어 이해 모델입니다.
  • 구글은 2019년 BERT를 검색에 적용했고, 발표 당시 미국 영어 검색 10건 중 1건에 영향을 준다고 밝혔습니다.
  • 전치사·어순처럼 미묘하게 의미를 바꾸는 단어를 이해하므로, 대화형·롱테일 질의의 의도 파악에 특히 강합니다.
  • BERT는 콘텐츠 순위를 매기는 머신러닝 시스템인 RankBrain과 달리, 질의 자체의 언어를 이해하는 데 초점이 있습니다.
  • SEO 관점에서는 키워드를 끼워 맞추기보다 사람에게 자연스럽고 명확하게 쓰는 것이 BERT 시대의 핵심입니다.

개요

BERT(Bidirectional Encoder Representations from Transformers)는 구글 AI 연구진이 발표한 트랜스포머 기반의 자연어 이해(NLP) 모델입니다. 기존 언어 모델이 문장을 왼쪽에서 오른쪽처럼 한 방향으로만 읽었다면, BERT는 한 단어의 앞과 뒤 문맥을 동시에 고려하는 양방향 방식으로 의미를 파악합니다. 구글은 2019년 이 기술을 검색에 도입하면서 "지난 5년간 가장 큰 도약이자 검색 역사상 가장 큰 도약 중 하나"라고 설명했습니다.

핵심은 전치사나 어순처럼 작지만 의미를 결정적으로 바꾸는 단어를 이해한다는 점입니다. 예를 들어 "2019 brazil traveler to usa need a visa"라는 질의에서 전치사 "to"는 브라질 사람이 미국으로 가는 상황을 가리키는데, BERT 이전에는 이 관계를 놓쳐 반대 방향의 결과를 보여주기도 했습니다.

작동 방식

BERT는 라벨이 없는 대량의 텍스트로 사전 학습(pre-training)되며, 마스킹 언어 모델(masked language model) 방식을 사용합니다. 문장의 일부 단어를 가린 뒤 앞뒤 문맥을 모두 활용해 가려진 단어를 예측하도록 학습하기 때문에, 한 단어를 그 주변 단어 전체와의 관계 속에서 해석할 수 있습니다. 이런 양방향 문맥 처리 덕분에 같은 단어라도 문장 안에서 어떤 의미로 쓰였는지를 구분합니다.

실제 검색 사례로, "do estheticians stand a lot at work"(피부관리사가 일할 때 많이 서 있는가)라는 질의에서 BERT는 "stand"가 물리적으로 서 있는 것을 뜻한다고 이해합니다. 이전 시스템은 "stand-alone" 같은 무관한 표현과 잘못 연결하기도 했습니다.

검색에 미친 영향

구글은 BERT 적용 발표 당시, 이 모델이 미국 영어 검색 10건 중 약 1건에 영향을 준다고 밝혔습니다. 영향이 가장 큰 영역은 다음과 같습니다.

  • 대화형 질의: 사람이 말하듯 자연스럽게 입력한 긴 문장형 검색의 의도를 더 정확히 해석합니다.
  • 롱테일·구체 질의: 단어 몇 개로는 알 수 없던 세부 맥락(누가, 어느 방향으로, 어떤 상황에서)을 잡아냅니다.
  • 피처드 스니펫: 구글은 24개국에서 BERT로 피처드 스니펫 품질을 개선했고, 한국어·힌디어·포르투갈어에서 특히 큰 개선이 있었다고 밝혔습니다.

RankBrain과의 차이

BERT는 종종 RankBrain과 함께 거론되지만 역할이 다릅니다. RankBrain은 검색 결과의 순위를 조정하는 머신러닝 시스템에 가깝고, BERT는 질의에 담긴 언어 자체의 의미를 이해하는 데 초점이 있습니다. 두 기술은 경쟁 관계가 아니라, 구글이 질의를 이해하고 결과를 배열하는 과정에서 서로 다른 단계를 보완하는 같은 의미 이해 계열의 구성요소입니다.

SEO 함의

BERT는 키워드를 기계적으로 채워 넣는 방식을 무력화합니다. 모델이 문맥과 의도를 이해하기 때문에, 어색하게 키워드를 반복하기보다 사람이 읽기 좋게 명확하고 자연스럽게 쓰는 콘텐츠가 유리합니다. 실행 관점에서 다음을 권장합니다.

  • 실제 사용자가 던지는 질문 형태(대화형·롱테일)를 그대로 반영해 작성합니다.
  • 전치사·수식 관계가 분명하도록 문장을 명료하게 다듬습니다.
  • 한 주제를 충분한 맥락과 함께 다뤄, 질의 의도에 정확히 답하도록 구성합니다.
  • 키워드 밀도 최적화보다 의도 충족과 가독성을 우선합니다.

근거

BERT의 기술적 토대는 Devlin 외(2018)의 논문 "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"(arXiv:1810.04805)에 정리되어 있으며, 발표 당시 GLUE를 포함한 11개 자연어 처리 벤치마크에서 최고 성능을 기록했습니다. 검색 적용에 관한 수치(미국 영어 검색 10건 중 1건, 24개국 피처드 스니펫 개선)는 구글의 공식 블로그 "Understanding searches better than ever before"(2019)에 근거합니다.

참고·출처

관련 용어