사고 사슬
사고 사슬(Chain of Thought, CoT)은 대규모 언어 모델이 최종 답을 내놓기 전에 중간 추론 단계를 명시적으로 글로 생성하도록 유도해 복잡한 추론 성능을 끌어올리는 프롬프팅 기법입니다. 정답만 바로 출력하게 하는 대신 '풀이 과정'을 거치게 만들어 산술·상식·기호 추론의 정확도를 크게 높입니다.
- 사고 사슬(CoT)은 모델이 최종 답 직전에 중간 추론 단계를 명시적으로 생성하게 만들어 복잡한 추론 정확도를 높이는 기법입니다.
- 대표 방식은 풀이 예시 몇 개를 함께 보여주는 few-shot CoT와, 예시 없이 '단계별로 생각해 보자(Let's think step by step)' 한 문장만 덧붙이는 zero-shot CoT입니다.
- Wei et al.(2022, arXiv:2201.11903)은 PaLM 540B에 예시 8개만으로 GSM8K 수학 문제 정확도를 약 58%까지 끌어올려, 검증기를 붙인 미세조정 GPT-3(55%)를 능가했습니다.
- 사고 사슬은 약 1000억(100B) 파라미터 이상의 큰 모델에서 비로소 효과가 나타나는 '창발적' 성질을 보입니다.
- GEO·AI 검색 관점에서는 답변 엔진이 인용·요약을 만들 때 거치는 추론 경로를 이해하는 토대가 되며, 단계가 분명한 구조화된 콘텐츠일수록 인용에 유리합니다.
개요
사고 사슬(Chain of Thought, CoT)은 대규모 언어 모델(LLM)이 정답을 바로 출력하는 대신 중간 추론 단계를 한 줄씩 글로 풀어내도록 유도하는 프롬프팅 기법입니다. 사람이 어려운 문제를 종이에 단계별로 적어 푸는 방식과 같습니다. 이렇게 풀이 과정을 거치게 하면 여러 단계를 결합해야 하는 산술·상식·기호 추론 과제에서 정확도가 눈에 띄게 올라갑니다.
핵심은 모델 가중치를 바꾸는 미세조정이 아니라 입력 프롬프트만 바꾸는 것이라는 점입니다. 별도 학습 비용 없이 프롬프트 설계만으로 추론 능력을 끌어내므로, 이후 등장한 여러 추론 강화 기법과 'reasoning 모델'의 출발점이 되었습니다.
작동 방식
사고 사슬은 크게 두 갈래로 구현됩니다.
few-shot CoT
Wei et al.(2022)이 제안한 원형입니다. 프롬프트 안에 '문제 → 단계별 풀이 → 정답' 형태의 예시(exemplar)를 몇 개 넣어, 모델이 같은 패턴으로 풀이를 전개하도록 유도합니다.
Q: 카페에 사과가 23개 있습니다. 점심에 20개를 쓰고 6개를 더 사 왔다면 지금 사과는 몇 개일까요?
A: 처음 사과는 23개입니다. 20개를 썼으므로 23 - 20 = 3개가 남습니다.
여기에 6개를 더 사 왔으므로 3 + 6 = 9개입니다. 정답은 9개입니다.
Q: 주차장에 차가 3대 있고 2대가 더 들어왔습니다. 지금 차는 몇 대일까요?
A:예시의 'A:' 부분에 들어간 자연어 풀이가 바로 사고 사슬입니다. 이 패턴을 본 모델은 새 문제에서도 정답만 내뱉지 않고 풀이 과정을 먼저 생성합니다.
zero-shot CoT
Kojima et al.(2022)은 예시가 전혀 없어도 질문 뒤에 'Let's think step by step(단계별로 생각해 보자)' 한 문장만 덧붙이면 같은 효과가 난다는 점을 보였습니다. 별도 풀이 예시를 만들 필요가 없어 적용이 간단합니다.
Q: 저글링 공이 16개 있습니다. 절반은 골프공이고, 그 골프공의 절반은 파란색입니다. 파란 골프공은 몇 개일까요?
A: 단계별로 생각해 보자.중요한 단서가 하나 있습니다. Wei et al.의 분석(ablation)에 따르면 효과의 핵심은 자연어로 된 중간 단계 자체입니다. 출력 토큰만 늘리거나 정답 뒤에 설명을 붙이는 방식으로는 같은 성능 향상이 나오지 않았습니다.
비교: 표준 프롬프팅 vs 사고 사슬
| 구분 | 표준 프롬프팅 | few-shot CoT | zero-shot CoT |
|---|---|---|---|
| 예시 풀이 | 정답만 제시 | 단계별 풀이 포함 | 예시 없음 |
| 추가 입력 | 없음 | 풀이 예시 수작업 작성 | '단계별로 생각해 보자' 한 문장 |
| 중간 단계 출력 | 없음 | 있음 | 있음 |
| 적용 난이도 | 가장 쉬움 | 예시 설계 필요 | 매우 쉬움 |
| 대표 출처 | — | Wei et al. 2022 | Kojima et al. 2022 |
근거와 수치
사고 사슬의 효과는 두 핵심 논문에서 정량적으로 확인됩니다.
- few-shot CoT (Wei et al., 2022): PaLM 540B 모델에 사고 사슬 예시 8개만 제시했을 때, 초등 수학 문장제 벤치마크 GSM8K 정확도가 약 58%에 도달해 당시 최고 성능을 기록했습니다. 이는 검증기(verifier)를 붙여 미세조정한 GPT-3의 55%를 능가하는 결과였습니다. Google Research 블로그는 후속 기법인 자기일관성(self-consistency)을 결합하면 같은 벤치마크에서 74%까지 올랐다고 밝혔습니다.
- zero-shot CoT (Kojima et al., 2022): text-davinci-002(InstructGPT) 모델에 'Let's think step by step'만 추가했을 때, MultiArith 정확도가 17.7%에서 78.7%로, GSM8K 정확도가 10.4%에서 40.7%로 상승했습니다. 예시 한 개 없이 단 한 문장으로 얻은 향상이라는 점이 핵심입니다.
한편 사고 사슬은 모든 모델에서 통하지는 않습니다. Wei et al.과 Google Research는 이 기법이 약 1000억(100B) 파라미터 이상의 대형 모델에서만 효과가 나타나는 '창발적(emergent)' 성질을 가진다고 설명합니다. 더 작은 모델은 오히려 비논리적인 풀이를 만들어 표준 프롬프팅보다 정확도가 떨어지기도 했습니다.
GEO·AI 검색에서의 의미
ChatGPT·Perplexity·구글 AI 오버뷰 같은 생성형 답변 엔진은 사용자 질문에 답할 때 내부적으로 사고 사슬과 유사한 추론 과정을 거칩니다. 따라서 콘텐츠를 만들 때 단계·근거·인과 관계가 명시적으로 드러나는 구조(번호 매긴 절차, 정의-근거-결론 흐름, 표)는 답변 엔진이 추론하고 인용하기에 유리합니다. 모호한 서술보다 추론 경로가 분명한 콘텐츠가 인용·요약 대상으로 선택될 가능성이 높습니다.
참고·출처
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903
- Kojima, T. et al. (2022). Large Language Models are Zero-Shot Reasoners. NeurIPS 2022, arXiv:2205.11916
- Wei, J. & Zhou, D. (2022). Language Models Perform Reasoning via Chain of Thought. Google Research Blog