용어집
GEO·AI 검색

시맨틱 검색

시맨틱 검색은 단어를 글자 그대로 매칭하는 대신 질의의 의미·의도·문맥을 이해해 관련 결과를 찾는 검색 방식입니다. 텍스트를 벡터(임베딩)로 변환한 뒤 의미적으로 가까운 문서를 찾는 기술이 핵심이며, 구글 허밍버드·BERT부터 RAG·AI 검색까지 현대 검색의 토대가 됩니다.

  • 시맨틱 검색은 키워드 일치가 아니라 질의의 의미와 의도를 이해해 결과를 찾는 검색 방식입니다.
  • 텍스트를 숫자 벡터(임베딩)로 바꾼 뒤, 의미적으로 가까운 문서를 벡터 공간에서 찾아냅니다.
  • 구글은 2013년 허밍버드, 2019년 BERT, 2021년 MUM을 거치며 검색을 시맨틱 방식으로 전환해 왔습니다.
  • 같은 단어라도 "초코 우유"와 "밀크 초콜릿"처럼 어순·문맥에 따른 의미 차이를 구분합니다.
  • 오늘날 RAG와 AI 검색(GEO)의 검색 단계가 대부분 시맨틱 검색(벡터 검색) 위에서 동작합니다.

시맨틱 검색이란

시맨틱 검색(Semantic Search)은 사용자의 질의를 글자 그대로 매칭하지 않고, 그 의미·의도·문맥을 해석해 관련성 높은 결과를 반환하는 검색 방식입니다. 전통적인 키워드(렉시컬) 검색이 "질의에 등장한 단어가 문서에 그대로 있는가"를 따졌다면, 시맨틱 검색은 "질의가 묻는 것과 문서가 말하는 것이 의미상 같은가"를 봅니다. 그래서 질의에 없던 단어로 표현된 문서, 동의어·상위어로 쓰인 문서, 질문 형태와 다른 서술형 문서까지 찾아낼 수 있습니다.

핵심 메커니즘은 임베딩(embedding)입니다. 머신러닝 모델이 단어·문장·문서를 고차원 공간의 숫자 벡터로 변환하는데, 이때 의미가 비슷한 텍스트일수록 벡터 공간에서 서로 가깝게 배치됩니다. Elastic은 이를 두고 임베딩이 "car"를 단지 "car"나 "cars"가 아니라 "driver", "insurance", "hybrid" 같은 연관 개념과 이어 준다고 설명합니다. 검색 시점에는 질의도 같은 방식으로 벡터화한 뒤, 가장 가까운 문서 벡터를 찾는 벡터 검색(vector search)으로 결과를 정렬합니다.

키워드 검색 vs 시맨틱 검색

구분키워드(렉시컬) 검색시맨틱 검색
매칭 기준단어·구문의 표면적 일치의미·의도·문맥의 유사성
대표 기술역색인, TF-IDF, BM25임베딩, 벡터 검색, kNN/ANN
동의어·재구성별도 동의어 사전 필요모델이 의미로 자동 연결
어순·문맥구분 약함 ("초코 우유"≈"밀크 초콜릿")구분함 (서로 다른 의미로 인식)
강점정확한 용어·코드·고유명사긴 질문, 대화형·자연어 질의
약점표현이 다르면 누락정확한 키워드 매칭은 상대적 약점

실무에서는 둘을 결합한 하이브리드 검색이 흔합니다. BM25 같은 키워드 점수와 벡터 유사도 점수를 함께 산출해, 정확한 용어 일치와 의미적 관련성을 모두 반영하는 방식입니다.

어떻게 동작하는가

시맨틱 검색은 보통 다음 순서로 진행됩니다. 먼저 문서를 임베딩 모델로 벡터화해 벡터 데이터베이스에 저장합니다. 사용자가 질의하면 같은 모델로 질의를 벡터로 변환하고, 질의 벡터와 가장 가까운 문서 벡터를 찾습니다. 이때 "가깝다"의 기준이 되는 유사도 지표로는 코사인 유사도, 내적(dot product), 유클리드 거리 등이 쓰입니다. Pinecone은 코사인을 "두 벡터 사이의 각도", 유클리드를 "기하학적 직선 거리"로 설명합니다.

문서가 수억 건에 이르면 모든 벡터를 일일이 비교하는 정확한 k-최근접 이웃(kNN)은 비용이 큽니다. 그래서 실제 시스템은 근사 최근접 이웃(ANN, Approximate Nearest Neighbor)을 사용합니다. 인덱싱·클러스터링·해싱·양자화로 탐색 공간을 좁혀, 약간의 정확도를 내주는 대신 대규모 데이터에서 큰 속도 향상을 얻습니다(Pinecone). HNSW가 대표적인 ANN 인덱스입니다.

실제 근거와 사례

시맨틱 검색은 학술 개념에 그치지 않고 구글 검색의 방향을 바꿔 왔습니다.

  • 허밍버드(2013) — 구글은 2013년 9월 26일 허밍버드를 발표했습니다. 당시 검색 책임자 Amit Singhal은 이를 "2001년 이후 알고리즘의 가장 극적인 변화"라고 표현했습니다(Wikipedia). 개별 단어가 아니라 단어들이 함께 만드는 문맥을 보고, 단어 몇 개만 맞는 페이지보다 의미가 맞는 페이지가 더 잘 노출되도록 한 업데이트입니다.
  • BERT(2019) — 구글은 2019년 10월 25일 BERT(Bidirectional Encoder Representations from Transformers)를 검색에 도입했다고 밝혔습니다. 단어를 앞뒤 문맥과 함께 양방향으로 해석하며, 도입 당시 미국 영어 검색의 10건 중 1건에 영향을 준다고 발표했습니다. 예로 "2019 brazil traveler to usa need a visa" 질의에서 전치사 "to"의 방향(브라질→미국)을 올바로 이해하는 사례를 들었습니다(Google).
  • MUM(2021) — 구글은 2021년 I/O에서 MUM(Multitask Unified Model)을 공개하며 BERT보다 1,000배 강력하고, 75개 언어로 학습되었으며 텍스트와 이미지를 함께 이해하는 멀티모달 모델이라고 소개했습니다(Google).

같은 임베딩·벡터 검색 기술은 오늘날 RAG(검색 증강 생성)의 검색 단계와 AI 검색 엔진의 근거 문서 수집에 그대로 쓰입니다. ChatGPT·Perplexity·구글 AI 오버뷰가 답변 근거를 찾는 과정 상당수가 시맨틱 검색 위에서 동작하므로, GEO(생성형 엔진 최적화) 관점에서도 의미 단위로 잘 구조화된 콘텐츠가 인용될 가능성이 높습니다.

실행 체크리스트

  • 질의-응답 의도를 명확히 드러내는 제목·소제목을 쓰고, 한 섹션이 하나의 질문에 답하도록 구성합니다(시맨틱 매칭에 유리).
  • 동의어·관련 개념을 자연스럽게 포함해 주제의 의미 범위를 넓게 덮습니다. 키워드 반복보다 개념 커버리지가 중요합니다.
  • 핵심 답변을 문단 앞쪽에 두어, 임베딩이 의미를 포착하기 쉽게 만듭니다.
  • 자체 검색을 구축한다면 키워드 검색만 고집하지 말고 하이브리드 검색(BM25 + 벡터)을 우선 검토합니다.
  • 벡터 검색 설계 시 임베딩 모델, 유사도 지표(코사인/내적/유클리드), ANN 인덱스(HNSW 등)를 데이터 규모와 정확도 요구에 맞게 선택합니다.
  • 긴 문서는 의미 단위로 적절히 청크 분할해 임베딩 품질과 검색 정밀도를 높입니다.

참고·출처