용어집
GEO·AI 검색

AI 크롤러

AI 크롤러는 대규모 언어 모델(LLM) 학습이나 AI 검색 답변 생성을 위해 웹 페이지를 수집하는 자동화된 봇입니다. OpenAI GPTBot, Anthropic ClaudeBot, Google-Extended 등이 대표적이며, 각자 고유한 User-Agent와 robots.txt 토큰을 사용해 식별·제어할 수 있습니다.

  • AI 크롤러는 LLM 학습용 데이터 수집과 AI 검색 답변 생성을 위해 웹을 순회하는 봇으로, GPTBot·ClaudeBot·Google-Extended가 대표적입니다.
  • 대부분의 운영사는 봇을 용도별로 분리해(학습용 / 검색 색인용 / 사용자 요청 응답용) 각각 다른 User-Agent와 robots.txt 토큰을 부여합니다.
  • 사이트 운영자는 robots.txt에 봇 토큰별 Disallow 규칙을 적어 AI 학습은 차단하고 AI 검색 노출은 허용하는 식으로 선택적 제어가 가능합니다.
  • Google-Extended는 별도 크롤러가 아니라 robots.txt 제어용 토큰이며, 차단해도 구글 검색 순위·색인에는 영향을 주지 않습니다.
  • Cloudflare 데이터(2025년 5월) 기준 AI 전용 크롤러 중 GPTBot이 약 30%, ClaudeBot이 약 21%로 가장 큰 비중을 차지했습니다.

AI 크롤러란 무엇인가

AI 크롤러는 생성형 AI 서비스를 운영하는 회사가 웹 페이지의 텍스트와 데이터를 자동으로 수집하기 위해 운영하는 봇입니다. 수집된 데이터는 크게 두 가지 용도로 쓰입니다. 하나는 ChatGPT·Claude·Gemini 같은 대규모 언어 모델(LLM)을 학습시키는 것이고, 다른 하나는 ChatGPT 검색이나 AI 답변처럼 실시간으로 최신 정보를 가져와 답변에 인용하는 것입니다. 전통적인 검색 크롤러(예: Googlebot)가 검색 결과 색인을 목적으로 한다면, AI 크롤러는 모델 학습과 AI 생성 답변이라는 목적이 추가된 점이 다릅니다.

여기서 주의할 점은 'AI 크롤링'이 수집이라는 행위·과정을 가리키는 반면, AI 크롤러는 그 행위를 수행하는 봇이라는 주체를 가리킨다는 것입니다. 이 문서는 봇 자체, 즉 어떤 운영사가 어떤 이름과 User-Agent로 어떤 목적의 봇을 운영하는지에 초점을 둡니다. 봇을 정확히 식별해야 robots.txt로 의도한 대로 제어할 수 있기 때문입니다.

대부분의 운영사는 봇을 용도별로 분리해 운영합니다. 예를 들어 학습용 봇, 검색 색인용 봇, 사용자가 질문할 때만 페이지를 가져오는 봇을 따로 두고 각각 다른 robots.txt 토큰을 부여합니다. 이 구조 덕분에 운영자는 '내 콘텐츠를 모델 학습에는 쓰지 못하게 하되 AI 검색 결과에는 노출되도록' 같은 선택적 정책을 세울 수 있습니다.

주요 AI 크롤러 정리

아래 표는 공식 문서에서 확인한 주요 AI 크롤러의 운영사·User-Agent·robots.txt 토큰·용도입니다. User-Agent 문자열의 버전 번호(예: GPTBot/1.3)는 운영사가 수시로 갱신하므로, 차단·허용 규칙은 버전 숫자가 아니라 robots.txt 토큰 이름을 기준으로 작성해야 합니다.

봇 이름운영사robots.txt 토큰주요 용도
GPTBotOpenAIGPTBot생성형 AI 파운데이션 모델 학습용 데이터 수집
OAI-SearchBotOpenAIOAI-SearchBotChatGPT 검색 결과에 사이트 노출
ChatGPT-UserOpenAIChatGPT-User사용자 질문 시점에 페이지를 직접 가져오는 요청
ClaudeBotAnthropicClaudeBotClaude 모델 학습·개선용 데이터 수집
Claude-UserAnthropicClaude-User사용자가 질문할 때 필요한 페이지를 가져오는 요청
Claude-SearchBotAnthropicClaude-SearchBotClaude 검색 기능을 위한 콘텐츠 색인
Google-ExtendedGoogleGoogle-ExtendedGemini·Vertex AI 학습/그라운딩 제어 (별도 크롤러 아님, 토큰만 존재)
CCBotCommon CrawlCCBot공개 웹 아카이브 수집 (다수 LLM 학습 데이터의 원천)

참고로 정확한 User-Agent 문자열은 다음과 같습니다(공식 문서 기준). OpenAI GPTBot은 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.3; +https://openai.com/gptbot, Common Crawl CCBot은 CCBot/2.0 (https://commoncrawl.org/faq/) 입니다. 반면 Google-Extended는 독립적인 HTTP User-Agent 문자열을 갖지 않습니다. 실제 크롤링은 기존 Googlebot User-Agent로 수행되고, Google-Extended라는 토큰은 오직 robots.txt에서 제어 용도로만 쓰입니다.

robots.txt로 AI 크롤러 제어하기

AI 크롤러 제어의 표준 수단은 robots.txt입니다. OpenAI·Anthropic·Google·Common Crawl은 모두 자사 봇이 robots.txt의 표준 지시문을 준수한다고 공식적으로 명시하고 있습니다. 아래는 용도에 따라 선택적으로 적용할 수 있는 예시입니다.

# 1) 모든 학습용 AI 크롤러 차단 (AI 검색 노출은 별도)
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

# 2) 학습은 막되 ChatGPT 검색 노출은 허용
User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

# 3) 특정 봇의 크롤링 속도만 제한
User-agent: ClaudeBot
Crawl-delay: 1

핵심은 토큰을 정확히 적는 것입니다. 예컨대 GPTBot을 차단해도 ChatGPT 검색용인 OAI-SearchBot은 별개이므로, 두 토큰을 각각 명시해야 의도한 정책이 적용됩니다. 마찬가지로 Anthropic의 ClaudeBot(학습)과 Claude-SearchBot(검색)은 분리되어 있습니다.

IP 기반 차단보다 robots.txt 권장

일부 운영사(Anthropic, OpenAI, Common Crawl)는 자사 봇의 IP 목록을 JSON 형태로 공개합니다(예: Anthropic은 claude.com/crawling/bots.json, Common Crawl은 index.commoncrawl.org/ccbot.json). 다만 Anthropic은 IP 기반 차단을 권장하지 않습니다. 봇이 robots.txt를 읽으러 오는 요청까지 막혀 오히려 옵트아웃 의도가 제대로 반영되지 않을 수 있기 때문입니다. 또 Anthropic·Common Crawl은 자사 봇을 사칭하는 가짜 크롤러가 존재한다는 점을 경고하며, 공개된 IP 목록이나 역방향 DNS 조회로 진짜 여부를 검증하라고 안내합니다.

실제 근거와 사례

AI 크롤러의 비중과 동작은 공식 문서·통계로 확인됩니다.

  • OpenAI 공식 문서: OpenAI는 크롤러를 GPTBot(학습), OAI-SearchBot(ChatGPT 검색 노출), ChatGPT-User(사용자 요청), OAI-AdsBot(광고 페이지 검증) 등으로 분리해 운영하며, 각 봇의 용도와 robots.txt 토큰을 명시하고 있습니다.
  • Anthropic 지원 문서: Anthropic은 ClaudeBot(학습), Claude-User(사용자 요청), Claude-SearchBot(검색 색인) 세 종류를 운영하며, 모든 봇이 robots.txt의 "do not crawl" 신호를 존중하고 CAPTCHA 등 우회 방지 기술도 따른다고 밝히고 있습니다.
  • Google 공식 문서: Google은 Google-Extended 차단이 "구글 검색 포함 여부에 영향을 주지 않으며 검색 순위 신호로도 사용되지 않는다"고 명시합니다. 즉 Gemini 학습 거부와 검색 노출은 독립적으로 제어됩니다.
  • Cloudflare 트래픽 분석(2025년 5월): 전체 크롤러 중 Googlebot이 약 50%로 가장 큰 비중을 차지했고, AI 전용 크롤러만 보면 GPTBot이 약 30%, ClaudeBot이 약 21%, Meta-ExternalAgent가 약 19%였습니다. GPTBot의 원시 요청 수는 전년 동기 대비 305% 증가했습니다.

이처럼 AI 크롤러 트래픽은 빠르게 늘고 있으며, 학습용 봇과 검색용 봇이 명확히 구분되어 있다는 점이 사이트 운영자에게 중요한 시사점입니다. 콘텐츠를 AI 학습에서 빼고 싶은지, AI 검색 답변에는 인용되고 싶은지에 따라 robots.txt 정책을 다르게 설계할 수 있기 때문입니다.

참고·출처

AI 크롤러란? | Search OS