용어집
GEO·AI 검색

컨텍스트 윈도우

컨텍스트 윈도우는 거대 언어 모델(LLM)이 한 번의 요청에서 한꺼번에 참조할 수 있는 입력과 출력 토큰의 최대 범위를 뜻합니다. 모델의 '작업 기억(working memory)'에 해당하며, 이 한도를 넘으면 앞선 내용이 잘리거나 처리되지 못합니다.

  • 컨텍스트 윈도우는 모델이 한 번에 처리할 수 있는 입력+출력 토큰의 최대 용량으로, 프롬프트·대화 이력·문서·생성 답변이 모두 이 안에 들어가야 합니다.
  • 모델별로 한도가 크게 다릅니다. GPT-4o는 128K, Claude는 표준 200K, GPT-4.1 계열은 1M, Gemini 1.5 Pro는 2M 토큰을 지원합니다.
  • 윈도우가 크다고 무조건 성능이 좋아지지는 않습니다. 토큰이 늘수록 정확도와 회수율이 떨어지는 현상(context rot)이 보고됩니다.
  • 'Lost in the Middle' 연구(arXiv:2307.03172)에 따르면 핵심 정보가 입력의 처음이나 끝에 있을 때 성능이 가장 높고, 중간에 있으면 크게 떨어지는 U자형 곡선이 나타납니다.
  • 컨텍스트 윈도우는 '용량·한도' 개념입니다. 그 한정된 공간에 무엇을 어떻게 채울지 설계하는 일은 컨텍스트 엔지니어링의 영역으로, 서로 인접하지만 초점이 다릅니다.

컨텍스트 윈도우란 무엇인가

컨텍스트 윈도우(context window)는 거대 언어 모델이 응답을 생성할 때 참조할 수 있는 모든 텍스트의 최대 범위를 가리킵니다. 시스템 프롬프트, 사용자 질문, 이전 대화 이력, 첨부한 문서, 그리고 모델이 만들어 내는 답변까지 전부 이 범위 안에 포함됩니다. IBM은 이를 모델이 입력을 처리하고 출력을 생성할 때 한 번에 고려할 수 있는 텍스트의 양으로 설명합니다.

여기서 단위는 단어가 아니라 토큰입니다. 토큰은 모델이 텍스트를 잘게 나눈 조각으로, 영어 기준 대략 1토큰이 4글자 안팎, 한국어는 글자나 형태소 단위로 더 잘게 쪼개지는 경향이 있어 같은 문장이라도 토큰 수가 더 많이 나오기도 합니다. 컨텍스트 윈도우가 128K 토큰이라면, 입력과 출력을 합쳐 약 12만 8천 토큰까지만 한 요청에 담을 수 있다는 의미입니다.

중요한 점은 컨텍스트 윈도우가 모델이 학습한 방대한 지식과는 다른 개념이라는 것입니다. 학습 데이터가 모델의 장기 지식이라면, 컨텍스트 윈도우는 그 순간의 요청에만 작동하는 '작업 기억(working memory)'에 가깝습니다. Anthropic은 공식 문서에서 컨텍스트 윈도우를 모델의 작업 기억에 비유하며, 더 큰 윈도우가 더 복잡하고 긴 프롬프트를 다룰 수 있게 해 준다고 설명합니다.

주요 모델의 컨텍스트 윈도우 길이

아래 표는 공식 문서·발표 기준으로 검증된 대표 모델의 컨텍스트 윈도우 한도입니다. 모델 버전과 제공 환경에 따라 수치가 달라질 수 있으므로, 실제 적용 시에는 각 제공사의 최신 모델 비교표를 확인하시기 바랍니다.

모델제공사컨텍스트 윈도우비고
GPT-4oOpenAI128,000 토큰최대 출력 약 16K 토큰
GPT-4.1 / mini / nanoOpenAI1,000,000 토큰GPT-4o(128K) 대비 대폭 확장
Claude (Sonnet 4.5 등 표준)Anthropic200,000 토큰일부 상위 모델은 1M 토큰 지원
Gemini 1.5 ProGoogle2,000,000 토큰발표 당시 최장 컨텍스트
Gemini 1.5 FlashGoogle1,000,000 토큰경량·고속 버전

OpenAI는 GPT-4.1 발표에서 이 모델 계열이 약 75만 단어(약 3,000페이지) 분량을 처리할 수 있다고 밝혔고, Google은 Gemini 1.5 Pro의 200만 토큰이 약 19시간 분량의 오디오 또는 수천 페이지의 텍스트에 해당한다고 설명했습니다. 즉 컨텍스트 윈도우의 크기는 곧 '한 번에 통째로 넣을 수 있는 자료의 양'을 결정합니다.

윈도우가 크면 무조건 좋은가 — 한계와 근거

직관적으로는 윈도우가 클수록 좋아 보이지만, 실제로는 그렇지 않습니다. Anthropic은 공식 문서에서 토큰 수가 늘어날수록 정확도와 회수율(recall)이 떨어지는 현상을 context rot(컨텍스트 부패)라고 부르며, 얼마나 많이 담느냐 못지않게 무엇을 담느냐가 중요하다고 강조합니다.

이 한계를 실증적으로 보여 준 대표 연구가 Liu 등(2023)의 Lost in the Middle: How Language Models Use Long Contexts(arXiv:2307.03172, TACL 게재)입니다. 이 논문은 다중 문서 질의응답과 키-값 검색 과제를 통해, 정답에 필요한 정보가 입력의 처음이나 에 있을 때 성능이 가장 높고, 중간에 위치하면 성능이 크게 떨어지는 것을 관찰했습니다. 정보 위치를 옮겨 보면 성능이 양 끝에서 높고 가운데에서 낮은 U자형 곡선을 그렸으며, 이 현상은 긴 컨텍스트를 표방하는 모델에서도 동일하게 나타났습니다.

정리하면 컨텍스트 윈도우의 크기는 '담을 수 있는 최대치'를 늘려 줄 뿐, 모델이 그 안의 모든 정보를 똑같이 잘 활용한다는 보장은 되지 않습니다. 따라서 실무에서는 윈도우를 무작정 채우기보다, 핵심 정보를 앞·뒤 같은 유리한 위치에 배치하거나 불필요한 내용을 덜어 내는 것이 효과적입니다. 이렇게 한정된 윈도우 안에 무엇을 어떤 순서로 넣을지 설계하는 작업은 별도 개념인 컨텍스트 엔지니어링으로 다뤄집니다. 컨텍스트 윈도우가 그릇의 크기라면, 컨텍스트 엔지니어링은 그 그릇에 무엇을 어떻게 담을지의 문제입니다.

참고·출처

컨텍스트 윈도우란? | Search OS