GEO·AI 검색

그라운디드 생성

그라운디드 생성은 모델이 자체 파라미터 기억에만 의존하지 않고, 검색·제공된 근거 데이터에 기반해 답변을 생성하면서 그 출처를 인용하는 생성 방식입니다. RAG 파이프라인의 '생성' 단계에 해당하며, 답변의 각 주장을 근거 문서에 연결해 환각을 줄이고 검증 가능성을 높이는 것을 목표로 합니다.

그라운디드 생성은 검색·제공된 근거 데이터에 기반해 답변을 만들고, 답변 속 주장을 출처에 연결(인용)하는 출력 방식입니다.
RAG의 두 단계(검색 → 생성) 중 '생성' 단계에 해당하며, 근거를 찾아오는 그라운딩 단계와 달리 '찾아온 근거로 실제 답을 쓰고 인용하는 부분'에 초점이 있습니다.
Google Vertex AI·Vectara 같은 상용 API는 답변과 함께 근거 청크, 주장-근거 매핑, 그라운딩 점수(0~1)를 반환해 답변의 출처를 추적할 수 있게 합니다.
핵심 효과는 환각 감소와 검증 가능성 확보이며, 답변이 제공된 자료에서만 도출되도록 제약합니다.
다만 인용이 붙었다고 항상 신뢰할 수 있는 것은 아니며, 모델이 사후 합리화로 출처를 갖다 붙이는 '불충실한 인용' 문제가 연구로 확인되었습니다.

그라운디드 생성이란

그라운디드 생성(Grounded Generation)은 대규모 언어 모델이 학습 시점에 파라미터로 외운 지식에만 의존하지 않고, 검색으로 가져왔거나 사용자가 제공한 근거 데이터에 기반해 답변을 생성하고 그 출처를 인용하는 생성 방식입니다. 검색·증강·생성으로 이어지는 RAG 파이프라인에서 마지막 '생성' 단계에 해당하며, 모델 출력을 검증 가능한 정보 원천에 묶어 두는 것이 핵심입니다.

여기서 짚어 둘 점은 그라운딩(grounding)과의 관계입니다. 그라운딩은 '답변을 사실 출처에 연결할 수 있는 능력' 전반을 가리키는 넓은 개념이고, 그라운디드 생성은 그중에서도 가져온 근거로 실제 답을 쓰고, 문장 단위로 출처를 달아 출력하는 부분에 초점이 있습니다. 즉 '근거를 찾아오는 것(검색)'과 '근거에 기반해 답을 만들고 인용하는 것(생성)'을 구분할 때, 그라운디드 생성은 후자에 해당합니다.

Google Cloud 문서는 그라운디드 생성(grounded answers, RAG라고도 부름)을 검색(Retrieval)과 생성(Generation) 두 단계로 설명하면서, 모델 출력을 특정 데이터 원천에 고정해 사실이 아닌 내용을 지어낼 가능성을 줄이는 방법론으로 정의합니다.

일반 생성 vs 그라운디드 생성

구분	일반 생성	그라운디드 생성
지식 출처	모델이 학습 때 외운 파라미터 기억	검색·제공된 근거 데이터(문서·웹·DB)
출처 인용	없음(또는 사후에 임의 부여)	답변 주장마다 근거 청크에 연결
검증 가능성	낮음(출처 추적 어려움)	높음(근거 링크로 추적 가능)
환각 위험	상대적으로 높음	제공 자료로 제약해 상대적으로 낮음
최신성	학습 시점에 고정	검색 시점의 최신 자료 반영 가능
RAG 내 위치	해당 없음	검색 다음의 '생성' 단계

상용 API는 어떻게 동작하는가

Google Vertex AI의 그라운디드 생성 API는 Google 검색, 인라인 텍스트, Agent Search 데이터 스토어 같은 근거 원천에서 관련 정보를 검색한 뒤, 그 내용으로 답변을 생성합니다. 응답에는 다음이 함께 담겨 출처 추적이 가능합니다.

근거 청크(support chunks): 원본에서 그대로 인용된 텍스트 조각과 제목·URI·문서 ID·페이지 같은 메타데이터
주장-근거 매핑(grounding support): 답변 속 각 주장(claimText)을 이를 뒷받침하는 청크 인덱스(supportChunkIndices)에 연결
그라운딩 점수(grounding score): 답변이 제공 근거에 얼마나 기반했는지를 0~1 사이 값으로 표시

Vectara는 이를 RAG 서비스 형태로 제공하며, '생성된 콘텐츠가 검증 가능하고 공급한 데이터에 고정되도록' 하여 환각을 줄인다고 설명합니다. 답변에는 데이터에서 도출된 사실에 근거를 다는 인용이 기본 포함되며, 답변의 사실 충실도를 측정하기 위한 자체 평가 모델 HHEM(Hughes Hallucination Evaluation Model)을 함께 운영합니다.

근거와 사례

그라운디드 생성의 이점은 분명하지만, '인용이 붙어 있다'는 사실만으로 신뢰성이 보장되지는 않습니다. Wallat 등(2024)의 논문 Correctness is not Faithfulness in RAG Attributions(arXiv:2412.18004)은 인용의 정확성(correctness)과 충실성(faithfulness)을 구분합니다. 정확성은 '인용된 문서가 실제로 그 주장을 뒷받침하는가'이고, 충실성은 '모델이 그 문서를 진짜로 참고해 답을 만들었는가'입니다. 이 연구는 현재의 인용 부착 답변에서 최대 57%의 인용이 충실하지 않을 수 있음을 보고하는데, 모델이 이미 가지고 있던 답에 맞는 출처를 사후에 갖다 붙이는 '사후 합리화(post-rationalization)' 때문입니다. 인용이 형식적으로 맞아도 실제로는 출처에서 도출되지 않을 수 있다는 의미입니다.

이 문제를 줄이려는 방향으로, Xia 등(2024)의 Ground Every Sentence(arXiv:2407.01796)는 ReClaim(Refer & Claim) 방식을 제안합니다. 답을 전부 쓴 뒤 출처를 붙이는 대신, 참조와 주장을 번갈아 생성해 문장 단위 인용을 만들며, 인용 매칭 정확도 약 90%를 보고합니다. 이는 그라운디드 생성의 품질이 '인용 유무'가 아니라 '주장과 근거가 문장 단위로 얼마나 충실히 연결되는가'에 달려 있음을 보여 줍니다.

그라운디드 생성