용어집
GEO·AI 검색

AI 크롤링

AI 크롤링은 ChatGPT·Gemini·Perplexity 같은 AI 시스템이 모델 학습, 검색 인덱싱, 사용자 질문에 대한 실시간 응답을 위해 웹 페이지를 자동으로 수집·읽어 들이는 행위와 과정 전반을 가리킵니다. 페이지를 인덱스에 넣어 순위를 매기는 전통적 검색 크롤링과 달리, 수집한 콘텐츠가 학습 데이터나 답변 생성의 원천으로 쓰인다는 점이 핵심 차이입니다.

  • AI 크롤링은 AI 시스템이 학습·인덱싱·실시간 응답을 위해 웹을 수집하는 '행위·과정'이며, 특정 봇 자체를 가리키는 'AI 크롤러'와는 초점이 다릅니다.
  • Cloudflare 측정에 따르면 지난 1년간 AI 크롤링의 약 80%가 모델 학습 목적이고, 검색 인덱싱은 18%, 사용자 실시간 행동은 2%였습니다.
  • 같은 OpenAI라도 GPTBot(학습)·OAI-SearchBot(검색)·ChatGPT-User(실시간)는 목적이 다르므로 robots.txt에서 각각 따로 제어해야 합니다.
  • robots.txt는 '접근 차단', llms.txt는 'AI가 읽을 콘텐츠 안내'로 역할이 다르며, llms.txt만으로는 학습 사용을 막을 수 없습니다.
  • 크롤링은 폭증하지만 그 대가로 들어오는 방문(referral)은 매우 적어, 크롤링 대비 유입 불균형(crawl-to-refer)이 운영자의 새로운 고민거리가 되었습니다.

AI 크롤링이란 무엇인가

AI 크롤링은 생성형 AI 시스템이 자신의 목적을 위해 웹 페이지를 자동으로 가져와 읽어 들이는 행위와 그 전체 과정을 뜻합니다. 여기에는 크게 세 가지 목적이 섞여 있습니다. 첫째는 거대 언어 모델을 만들기 위한 학습 데이터 수집, 둘째는 AI 검색 기능에 노출하기 위한 인덱싱, 셋째는 사용자가 질문하는 순간 답변에 쓸 근거를 즉시 가져오는 실시간 페치(live fetch)입니다. 이 글은 특정 봇(주체)보다 이 '과정과 정책, 트래픽'에 초점을 맞춥니다.

중요한 구분이 하나 있습니다. AI 크롤러가 GPTBot·ClaudeBot처럼 실제로 요청을 보내는 '봇·주체'라면, AI 크롤링은 그 봇들이 수행하는 '동작·정책·흐름'입니다. 같은 회사의 봇이라도 학습용·검색용·실시간용으로 목적이 갈리기 때문에, 운영자 입장에서는 '어떤 봇이 오는가'보다 '어떤 목적의 크롤링을 허용·차단할 것인가'를 기준으로 판단하는 편이 실무에 맞습니다.

전통적 크롤링 vs AI 크롤링

검색엔진의 전통적 크롤링과 AI 크롤링은 '웹을 자동으로 읽는다'는 점은 같지만, 수집한 데이터가 어디에 쓰이는지가 근본적으로 다릅니다.

구분전통적 크롤링AI 크롤링
주된 목적검색 인덱스 구축·순위 산정모델 학습, AI 검색 인덱싱, 실시간 답변 생성
수집물의 쓰임검색 결과 페이지(SERP)에 링크로 노출학습 데이터·답변 본문·인용 근거로 소비
대표 주체Googlebot, BingbotGPTBot, ClaudeBot, PerplexityBot, Google-Extended(토큰)
방문 유입(referral)SERP 클릭으로 원문 사이트에 트래픽 환원AI가 답변 안에서 처리해 클릭·유입이 적은 편
제어 수단robots.txt, 메타 robots, 사이트맵robots.txt(봇별 분리), llms.txt, 학습 전용 토큰(Google-Extended 등)
운영자 관심사인덱싱·순위·크롤 예산학습 사용 동의 여부, 크롤링 대비 유입 불균형, 서버 부하

AI 크롤링 제어 방법

AI 크롤링은 표준 파일로 어느 정도 제어할 수 있습니다. 다만 각 파일의 역할이 명확히 다르다는 점을 먼저 이해해야 합니다. robots.txt는 '어디에 접근하지 말라'는 접근 통제이고, llms.txt는 'AI가 읽기 좋게 정리된 콘텐츠는 여기 있다'는 안내서입니다.

robots.txt — 봇별로 따로 제어

핵심은 AI 봇마다 목적이 다르므로 사용자 에이전트(user-agent)별로 규칙을 나눠 써야 한다는 점입니다. 예를 들어 OpenAI는 학습용 GPTBot, 검색용 OAI-SearchBot, 실시간용 ChatGPT-User를 별도로 운영하므로, 'GPTBot만 차단'한다고 해서 ChatGPT 검색 노출까지 막히지는 않습니다.

# 학습용 크롤링은 차단하되 AI 검색 노출은 허용하는 예시

# OpenAI 학습용 — 차단
User-agent: GPTBot
Disallow: /

# OpenAI 검색 인덱싱 — 허용(규칙 없음 = 허용)
User-agent: OAI-SearchBot
Disallow:

# Anthropic 학습/수집 — 차단
User-agent: ClaudeBot
Disallow: /

# Google: 검색용 Googlebot은 그대로 두고
# 생성형 AI(Gemini 등) 학습 사용만 차단하는 토큰
User-agent: Google-Extended
Disallow: /

# Perplexity
User-agent: PerplexityBot
Disallow: /private/

Google-Extended는 별도의 봇이 아니라 robots.txt 전용 제어 토큰입니다. 이 토큰을 Disallow로 두면 콘텐츠가 Gemini 등 생성형 AI 학습·그라운딩에 쓰이지 않도록 막으면서도, Google 검색 색인과 순위에는 영향을 주지 않습니다.

llms.txt — AI에게 콘텐츠를 안내

llms.txt는 사이트 루트에 두는 Markdown 파일로, AI가 페이지의 메뉴·스크립트·레이아웃을 헤집지 않고도 핵심 콘텐츠를 효율적으로 찾아 읽도록 돕는 '모델용 사이트맵'에 가깝습니다.

# Example Corp

> 자사 제품과 가격, 문서를 안내하는 요약입니다.

## Docs
- [시작하기](https://example.com/docs/start): 설치와 기본 설정
- [API 레퍼런스](https://example.com/docs/api): 엔드포인트 정의

## Optional
- [회사 소개](https://example.com/about)

다만 흔한 오해가 있습니다. llms.txt를 두는 것만으로 학습 사용을 통제할 수 있다는 생각은 사실이 아닙니다. llms.txt는 추론 시점에 AI가 콘텐츠를 잘 읽도록 돕는 편의 장치일 뿐이고, 학습 차단은 robots.txt나 학습 전용 토큰의 몫입니다. 또한 robots.txt·llms.txt 모두 강제력이 없는 자발적 규약이라, 이를 따르지 않는 크롤러에는 효력이 없다는 한계도 함께 기억해야 합니다.

실제 근거와 통계

AI 크롤링의 규모와 성격은 Cloudflare가 자사 네트워크 트래픽을 기반으로 공개한 데이터에서 비교적 구체적으로 드러납니다.

  • 학습이 압도적 비중입니다. Cloudflare 분석에 따르면 지난 1년간 AI 크롤링 목적의 약 80%가 모델 학습이었고, 검색 인덱싱이 18%, 사용자 실시간 행동이 2%였습니다. 학습 비중은 1년 전 72%에서 80%로 더 늘었습니다(출처: Cloudflare, The crawl-to-click gap).
  • AI 크롤링 트래픽이 빠르게 증가했습니다. 2024년 5월부터 2025년 5월 사이 AI·검색 크롤러 트래픽은 약 18% 늘었고, 같은 기간 OpenAI의 GPTBot은 전체 크롤러 점유율이 2.2%에서 7.7%로 올라 순위가 9위에서 3위로 상승했습니다(요청량 기준 +305%). 반면 ByteDance의 Bytespider는 42%에서 7.2%로 급감했습니다(출처: Cloudflare, From Googlebot to GPTBot).
  • 크롤링 대비 유입은 극히 적습니다. 'crawl-to-refer'(방문 1건당 크롤링한 페이지 수)를 보면, Anthropic은 2025년 1월 286,930:1에서 7월 38,066:1로 개선됐지만 여전히 방문 1건마다 수만 페이지를 크롤링하는 수준입니다. 같은 기간 OpenAI는 1,217:1→1,091:1, Google은 3.8:1→5.4:1로 격차가 가장 작았습니다(출처: Cloudflare, The crawl-to-click gap).

이 수치들이 시사하는 바는 분명합니다. AI 크롤링은 콘텐츠를 가져가는 양에 비해 원문 사이트로 돌려주는 트래픽이 매우 적어, 운영자가 '학습에 쓰이도록 둘 것인가, AI 검색에 노출될 것인가, 둘 다 막을 것인가'를 목적별로 의식적으로 결정해야 하는 단계에 이르렀습니다.

실행 체크리스트

  • 서버·CDN 로그에서 GPTBot·ClaudeBot·PerplexityBot 등 AI 크롤러의 요청량과 빈도를 먼저 파악합니다.
  • '학습 허용 여부'와 'AI 검색 노출 여부'를 분리해 결정합니다. 둘은 서로 다른 정책입니다.
  • robots.txt에서 봇별 user-agent로 규칙을 나눠 작성하고, GPTBot 차단이 OAI-SearchBot 차단을 의미하지 않음을 확인합니다.
  • Google 검색은 유지하되 Gemini 학습만 막으려면 robots.txt에 Google-Extended 토큰을 Disallow로 추가합니다.
  • llms.txt는 '학습 차단'이 아니라 'AI가 읽을 핵심 콘텐츠 안내'로 활용하고, 차단 정책은 robots.txt에 둡니다.
  • 표준 규약을 무시하는 크롤러에 대비해 필요 시 WAF·봇 관리 등 차단 수단을 함께 검토합니다.
  • 정책 변경 후에는 반영에 시간이 걸릴 수 있으므로(예: OpenAI 검색은 robots.txt 갱신 후 약 24시간) 적용 결과를 로그로 재확인합니다.

참고·출처