GEO·AI 검색

LLM

거대 언어 모델(LLM)은 방대한 텍스트로 사전 학습되어 다음 단어(토큰)를 확률적으로 예측하는 방식으로 자연어를 이해하고 생성하는 AI 모델입니다. ChatGPT, Gemini, Claude 같은 서비스와 구글 AI 오버뷰(AI Overviews)를 움직이는 엔진으로, 링크 목록에서 AI가 종합한 답변으로 검색이 이동하는 흐름의 중심에 있습니다.

LLM은 인터넷 규모의 데이터를 학습한 뒤 다음 토큰을 예측하는 방식으로 텍스트를 생성하며, ChatGPT·Gemini·Claude·구글 AI 오버뷰의 답변을 만들어 내는 엔진입니다.
2017년 등장한 트랜스포머(Transformer) 아키텍처가 대규모 병렬 학습을 가능하게 했고, 오늘날 거의 모든 주요 LLM의 토대가 되었습니다.
LLM은 학습 데이터에 없는 최신 정보나 전문 지식을 본질적으로 알지 못하기 때문에, 검색 결과와 외부 문서를 끌어와 답하는 검색 증강 생성(RAG)과 함께 쓰이는 경우가 많습니다.
검색이 LLM이 생성한 답변 쪽으로 옮겨 가면서, 단순히 결과 상위에 노출되는 것을 넘어 LLM 답변 안에서 인용·언급되는 것이 새로운 가시성 지표(GEO)가 되었습니다.
구글 공식 문서는 AI 오버뷰와 AI 모드에도 기존 SEO 베스트 프랙티스가 그대로 적용된다고 밝히고 있어, 크롤링 가능성·구조화 데이터·신뢰 신호가 LLM 노출의 기반이 됩니다.

LLM이란?

거대 언어 모델(LLM)은 책, 웹 페이지, 코드 등 방대한 텍스트로 사전 학습되어, 앞선 맥락이 주어지면 다음에 올 단어(더 정확히는 다음 "토큰")를 확률적으로 예측하는 AI 모델입니다. 이 단순한 "다음 토큰 예측"을 천문학적인 규모의 데이터와 파라미터에 걸쳐 반복하다 보면, 명시적으로 설계하지 않았는데도 번역·요약·질의응답·작문 같은 다양한 작업을 수행하는 능력이 창발적으로 나타납니다. ChatGPT, 구글 제미나이(Gemini), 앤트로픽 클로드(Claude)는 모두 이런 LLM 위에서 동작하는 서비스입니다.

현대 LLM의 출발점은 2017년 구글 연구진이 발표한 논문 "Attention Is All You Need"(Vaswani et al., arXiv:1706.03762)입니다. 이 논문은 순환 신경망(RNN)을 버리고, 셀프 어텐션(self-attention)만으로 맥락을 처리하는 트랜스포머(Transformer) 아키텍처를 제안했습니다. 트랜스포머는 문장을 순차적으로 처리하지 않고 병렬로 학습하기 때문에, 이전보다 훨씬 더 큰 모델과 데이터로 규모를 키울 길을 열었습니다. 오늘날 거의 모든 주요 LLM이 트랜스포머를 기반으로 만들어집니다.

다음 변곡점은 2020년 OpenAI가 발표한 논문 "Language Models are Few-Shot Learners"(Brown et al., arXiv:2005.14165), 곧 GPT-3 논문이었습니다. 이 논문은 1,750억 개 파라미터 규모로 키운 모델이, 작업별 미세 조정 없이 프롬프트에 예시 몇 개만 보여 주는 것만으로 번역·질의응답 같은 작업을 수행할 수 있음을 보였습니다. "모델이 클수록 더 유능하다"는 스케일링 패러다임과 프롬프트 기반 사용 방식이 여기서 본격화되었고, 이후 이어진 생성형 AI 붐의 직접적인 토대가 되었습니다.

LLM은 어떻게 동작하는가 (마케터를 위한 요약)

수식을 걷어 내면, LLM은 다음과 같은 흐름으로 동작합니다.

사전 학습(Pre-training): 모델은 인터넷 규모의 텍스트를 읽으며 "이 맥락에서 다음에 올 가능성이 가장 높은 단어는 무엇인가"를 끝없이 추측합니다. 이 과정을 통해 언어의 패턴, 사실, 문체, 추론 방식이 모델의 파라미터(가중치)에 압축됩니다.
추론(Inference): 사용자가 프롬프트를 입력하면, 모델은 학습한 확률 분포에 따라 토큰을 한 개씩 이어 붙이며 답변을 생성합니다. 다시 말해 기본 동작은 답을 "찾아서 가져오는" 것이 아니라 "가장 그럴듯한 다음 단어들"을 만들어 내는 것입니다.

이러한 설계는 두 가지 한계를 낳습니다. 첫째, 모델은 학습 시점 이후의 정보나 학습 데이터에 없는 전문 지식을 본질적으로 알지 못합니다(지식 컷오프). 둘째, 사실이 아닌 내용을 자신 있게 지어낼 수 있습니다 — 환각(hallucination)입니다. 이를 보완하기 위해, 검색 결과와 외부 문서를 실시간으로 끌어와 답변의 근거로 삼는 검색 증강 생성(RAG)이 널리 쓰입니다. "웹을 참조해 답한다"는 구글 AI 오버뷰나 퍼플렉시티(Perplexity) 같은 AI 검색 경험이 바로 이 조합을 실제로 구현한 사례입니다.

전통적 검색 엔진 vs. LLM 기반 답변

LLM이 검색에 들어오면서, 정보가 사용자에게 도달하는 방식 자체가 달라졌습니다. 그 차이는 다음과 같이 정리할 수 있습니다.

구분	전통적 검색 엔진	LLM 기반 답변 (AI 검색)
결과 형태	링크 목록 (텐 블루 링크)	종합된 자연어 답변 + 참고 링크
사용자 행동	여러 페이지를 클릭해 들어가 비교	답변을 바로 읽음 (제로클릭 비중 증가)
노출 단위	페이지 단위 순위	문장·문단 단위 인용 또는 언급
최적화 목표	검색 순위 상승 (SEO)	AI 답변에서 인용·추천되기 (GEO)
대표 사례	구글 일반 검색, 네이버 통합검색	구글 AI 오버뷰·AI 모드, ChatGPT, 퍼플렉시티

LLM이 SEO·GEO에 중요한 이유

결과 화면이 "LLM이 생성한 답변" 쪽으로 옮겨 가면서, 마케터의 목표도 확장되었습니다. 이제 핵심 과제는 검색 결과 상위에 오르는 것만이 아니라, LLM이 답변을 생성할 때 여러분의 콘텐츠를 근거로 인용하거나 언급하게 만드는 것입니다. 이를 다루는 분야가 GEO(생성형 엔진 최적화, generative engine optimization)입니다.

이 변화는 학술적으로도 기록되어 있습니다. KDD 2024에 채택된 "GEO: Generative Engine Optimization"(Aggarwal et al., arXiv:2311.09735)은 "거대 언어 모델(LLM)의 등장으로 생성 모델이 정보를 모으고 요약해 답하는 새로운 검색 패러다임이 열렸다"고 밝히며, 콘텐츠 제작자가 통제하기 어려운 "AI 답변 내부에서의 가시성"을 최적화 대상으로 규정합니다. 이 논문은 출처 인용, 통계, 인용구를 추가하는 등의 전략으로 생성형 엔진 응답 내 가시성을 최대 40%까지 끌어올릴 수 있음을 실험으로 보였습니다.

다만 LLM 노출이 SEO와 완전히 동떨어진 별개의 게임은 아닙니다. 구글 공식 문서(Search Central, "AI features and your website")는 AI 오버뷰와 AI 모드 같은 AI 기능에 대해 기존 SEO 베스트 프랙티스가 그대로 유효하며 추가 요건이 없다고 밝힙니다. 또한 이들 AI 기능이 사용자가 더 깊이 탐색할 수 있도록 출처 웹사이트로 연결되는 링크를 제시한다고 설명합니다. 다시 말해, 구글의 AI는 답변을 구성할 때 동일한 크롤링·인덱싱·구조화 데이터 인프라를 사용하므로, 봇이 잘 읽을 수 있는 사이트와 구조·신뢰 신호가 명확한 콘텐츠가 LLM 인용의 토대가 됩니다.

실전 체크리스트: LLM 답변에 인용되기

AI 크롤러가 콘텐츠 본문을 읽을 수 있도록 렌더링과 크롤링 가능성을 확보합니다(자바스크립트 의존 콘텐츠 점검).
질문에 대한 답을 한두 문장으로 앞부분에 명확히 제시해, LLM이 발췌·인용하기 쉽게 만듭니다.
주장을 출처·통계·인용구로 뒷받침해 신뢰 신호를 강화합니다(GEO 논문이 효과적이라고 검증한 전략).
구조화 데이터와 명확한 제목 위계를 사용해, 기계가 콘텐츠의 의미를 파악할 수 있게 합니다.
하나의 주제를 깊이 있게 다뤄, 해당 분야에서 반복 인용되는 권위 있는 출처가 되게 합니다.

LLM

LLM이란?

LLM은 어떻게 동작하는가 (마케터를 위한 요약)

전통적 검색 엔진 vs. LLM 기반 답변

LLM이 SEO·GEO에 중요한 이유

실전 체크리스트: LLM 답변에 인용되기

참고·출처

관련 용어