용어집
GEO·AI 검색

RAG

RAG(검색 증강 생성)는 LLM이 먼저 외부 지식베이스에서 관련 문서를 검색한 뒤, 그 내용을 근거로 답변을 생성하는 기법입니다. 모델 파라미터에 내재된 지식에만 의존하지 않고 답변 시점에 최신 자료나 전문 자료를 끌어와 활용하므로, 재학습 없이도 정확도를 높이고 출처를 함께 제시할 수 있습니다.

  • RAG는 외부 문서를 가져오는 검색(retrieval) 단계와 그 문서를 맥락으로 삼아 답하는 생성(generation) 단계를 결합하여, 모델에 고정된 파라미터 지식을 외부 지식으로 보완합니다.
  • 이 용어는 Lewis 등이 2020년 논문(arXiv:2005.11401, NeurIPS 2020)에서 처음 제시했으며, 원래 설계는 위키피디아의 밀집 벡터 인덱스를 신경망 검색기로 질의하는 방식입니다.
  • 파인튜닝과 달리 RAG는 모델을 재학습하지 않고 지식베이스만 갱신하여 새 정보를 반영하므로, 비용 효율적이면서 지식 컷오프 공백과 환각을 줄여 줍니다.
  • 답변이 검색된 문서에 근거하기 때문에 RAG는 출처를 함께 제시할 수 있으며, ChatGPT·Perplexity·구글 AI 오버뷰 같은 생성형 검색이 웹페이지를 인용하는 방식이 바로 이것입니다.
  • GEO 관점에서 보면, 내 콘텐츠가 AI의 인용 출처로 선택되려면 검색·청킹·임베딩 단계에서 쉽게 회수되도록 구조화하는 것이 핵심입니다.

RAG란 무엇인가

RAG(검색 증강 생성, Retrieval-Augmented Generation)는 LLM이 답변을 생성하기 전에 먼저 질문과 관련된 문서를 외부 지식베이스에서 검색(retrieve)하고, 그 내용을 모델 입력(맥락)에 넣어 모델이 이를 바탕으로 답을 생성(generate)하게 하는 기법입니다. AWS는 RAG를 "대규모 언어 모델이 응답을 생성하기 전에, 학습 데이터 외부의 신뢰할 수 있는 지식베이스를 참조하도록 출력을 최적화하는 과정"이라고 정의합니다. 즉 이미 알고 있는 것에만 의존하는 대신, 답변 시점에 신뢰할 수 있는 자료를 끌어와 그것을 근거로 추론하게 하는 것입니다.

이러한 구조가 중요한 이유는 LLM이 가진 두 가지 본질적 한계 때문입니다. 첫째, 모델의 지식은 학습 시점에 고정되므로(지식 컷오프) 그 이후의 정보나 비공개 내부 문서는 알지 못합니다. 둘째, 모델은 환각을 일으켜 모르는 것에 대해서도 그럴듯한 답을 지어냅니다. RAG는 외부 문서를 답변의 근거로 주입함으로써 이 두 문제를 동시에 완화하고, 어떤 문서를 사용했는지 출처를 밝히는 것을 가능하게 합니다.

기원: Lewis 등(2020)

"RAG"라는 용어와 방법론은 Patrick Lewis와 11명의 공저자가 발표한 2020년 논문 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks"(arXiv:2005.11401, 2020년 5월 22일 제출, NeurIPS 2020 채택)에서 비롯되었습니다. 이 논문은 RAG를 사전학습된 파라미터 메모리(parametric memory)비파라미터 메모리(non-parametric memory)를 결합한 언어 생성 모델로 정의합니다. 파라미터 메모리는 사전학습된 seq2seq 모델이고, 비파라미터 메모리는 사전학습된 신경망 검색기로 접근하는 위키피디아의 밀집 벡터 인덱스입니다. 쉽게 말해 RAG의 핵심 아이디어는 모델 가중치에 내장된 지식(파라미터)과 명시적으로 저장되어 검색 가능한 외부 지식(비파라미터)을 함께 사용하는 것입니다.

논문은 RAG가 세 가지 오픈 도메인 QA 과제에서 최첨단(state-of-the-art) 성능을 기록했으며, 파라미터 메모리에만 의존하는 seq2seq 기준 모델보다 "더 구체적이고 다양하며 사실에 부합하는" 언어를 생성했다고 보고했습니다. 저자들은 그 동기를 "모델이 자신의 결정에 대한 출처를 제공하고 세계 지식을 갱신하는 일은 여전히 미해결 연구 과제"라고 밝혔습니다. 덧붙이자면, NVIDIA 기술 블로그는 주저자 Patrick Lewis가 약어 "RAG" 자체보다 더 매력적인 이름을 짓지 못한 데 대해 농담조로 사과했다고 전합니다.

RAG vs. 파인튜닝

LLM에 도메인 특화 지식을 부여하는 대표적인 두 방법은 RAG와 파인튜닝입니다. 둘은 대체재가 아니라 서로 다른 목적에 쓰이며, 실무에서는 두 가지를 함께 결합하는 경우가 많습니다.

구분RAG(검색 증강 생성)파인튜닝
지식 주입 방식추론 시점에 외부 문서를 검색해 맥락으로 주입학습 과정에서 모델 가중치 자체를 갱신
최신성 유지지식베이스 문서를 교체하면 즉시 반영새 데이터로 재학습 필요
비용재학습 불필요, 상대적으로 저렴학습 연산과 데이터 준비 비용이 높음
출처 표기검색된 문서를 근거로 인용 가능출처 추적이 어려움
환각외부 근거로 완화지식은 주입되나 근거가 약함
적합한 상황최신·사실 지식, 내부 문서, 출처가 중요한 QA어조·형식·도메인 어휘 같은 행동 학습

요약하면 RAG는 "모델이 무엇을 아는가"(지식)를 다루는 데 더 강력한 도구이고, 파인튜닝은 "모델이 어떻게 말하고 행동하는가"(스타일·형식)에 뛰어납니다. AWS 역시 RAG를 모델 재학습 없이 "LLM 출력을 관련성 있고 정확하며 유용하게 유지하도록 개선하는 비용 효율적인 접근법"이라고 설명합니다.

RAG 파이프라인의 구성 요소

전형적인 RAG 파이프라인은 다음 단계로 동작합니다.

  1. 인덱싱(준비): 문서를 의미 있는 단위로 분할하고(청킹), 각 청크를 임베딩 벡터로 변환해 벡터 데이터베이스에 저장합니다.
  2. 검색(retrieval): 사용자의 질문을 동일한 임베딩 공간으로 변환해 의미적으로 가장 가까운 청크를 회수합니다(시맨틱 검색). 필요하면 리랭커가 후보를 관련도 순으로 재정렬합니다.
  3. 증강(augmentation): 회수된 청크를 맥락으로 프롬프트에 결합하여 모델에 전달합니다.
  4. 생성(generation): LLM이 주입된 근거 문서를 바탕으로 답을 생성하고, 어떤 문서를 참조했는지 표시합니다.

이처럼 답변을 외부 근거에 결부시키는 것을 그라운딩(grounding)이라 하며, RAG는 이를 구현하는 가장 일반적인 방법입니다.

검색과 GEO 맥락: AI는 외부 문서를 인용한다

RAG는 단지 내부 챗봇용 기법이 아니라, 오늘날 생성형 검색이 작동하는 방식 그 자체입니다. ChatGPT의 웹 검색, Perplexity, 구글 AI 오버뷰 같은 답변 엔진은 사용자의 질문에 대해 웹 문서를 검색·회수하고, 그 내용에 근거해 답변을 생성한 뒤 출처 링크를 붙입니다. 이는 본질적으로 "웹 전체를 지식베이스로 삼은 RAG"입니다. 따라서 GEO(생성형 엔진 최적화)의 핵심 과제는 결국 하나로 귀결됩니다. 바로 내 콘텐츠를 AI의 검색 단계에서 회수되고 생성 단계에서 인용되는 문서로 만드는 것입니다.

실무에서는 AI가 쉽게 회수하고 인용할 수 있는 형태로 콘텐츠를 준비하는 것이 관건입니다. 명확한 질문-답변 구조, 독립된 단위로도 성립하는 자기완결적 문단(청킹에 유리한 구조), 사실·수치·출처를 명시한 작성, 구조화된 마크업은 모두 회수 가능성과 AI 인용 가능성을 함께 높입니다. 반대로 맥락이 흩어진 모호한 글은 검색 단계에서 제대로 회수되지 못하고 AI 답변에 거의 포함되지 못합니다.

실무 체크리스트

  • 지식이 자주 바뀌거나 출처 표기가 중요하다면 파인튜닝보다 RAG를 먼저 고려하세요.
  • 문서를 의미 있는 단위로 청킹하고, 각 청크가 단독으로 읽혀도 말이 되도록 작성하세요.
  • 검색 품질이 RAG 성능을 좌우하므로, 임베딩 모델과 리랭커로 회수 정확도를 먼저 검증하세요.
  • 생성된 답변과 함께 근거 문서를 노출해 환각을 검증할 수 있게 하세요.
  • GEO 목적이라면 콘텐츠를 질문-답변 형식, 자기완결적 문단, 구조화된 마크업으로 정리해 AI 회수·인용 가능성을 높이세요.

참고·출처