파인튜닝
파인튜닝은 대량의 데이터로 이미 학습된 사전학습 모델을 특정 작업·도메인 데이터로 추가 학습시켜 가중치를 조정하는 기법입니다. 모델의 말투·형식·전문성을 원하는 방향으로 내재화하는 데 사용됩니다.
- 파인튜닝은 GPT처럼 이미 학습된 사전학습 모델을 특정 작업·도메인 데이터로 추가 학습시켜 가중치를 조정하는 기법입니다.
- 전체 파라미터를 갱신하는 전체 파인튜닝과, 일부만 학습하는 PEFT(LoRA·QLoRA 등) 방식으로 나뉩니다.
- LoRA는 사전학습 가중치를 동결하고 저랭크 행렬만 학습해, GPT-3 175B 기준 학습 파라미터를 약 1만 배, GPU 메모리를 약 3배 줄입니다(arXiv:2106.09685).
- 새로운 지식을 실시간으로 주입하려면 RAG가, 말투·형식·전문 추론을 모델에 내재화하려면 파인튜닝이 적합합니다.
- GEO·AI 검색 맥락에서는 브랜드 톤·도메인 전문성을 모델에 각인시키는 수단으로 활용됩니다.
파인튜닝이란
파인튜닝(Fine-Tuning)은 대량의 일반 데이터로 이미 학습을 마친 사전학습 모델을, 특정 작업이나 도메인에 맞춘 비교적 작은 데이터셋으로 추가 학습시켜 모델 내부의 가중치를 조정하는 기법입니다. 즉 처음부터 모델을 만드는 것이 아니라, 이미 언어·세계 지식을 폭넓게 학습한 모델을 출발점으로 삼아 원하는 용도로 "재교육"하는 과정입니다.
OpenAI는 지도 파인튜닝(Supervised Fine-Tuning, SFT)을 "원하는 스타일과 내용을 더 안정적으로 생성하도록 예시로 모델을 학습시키는 것"으로 설명합니다. 잘 만든 파인튜닝 모델은 매번 긴 프롬프트로 지시하지 않아도 일관된 형식·말투·전문성을 내도록 동작을 모델 자체에 내재화할 수 있어, 프롬프트를 짧게 줄이면서도 비슷한 성능을 유지하는 효과가 있습니다.
파인튜닝의 방식
학습 시 갱신하는 파라미터의 범위에 따라 크게 두 갈래로 나뉩니다.
전체 파인튜닝 (Full Fine-Tuning)
모델의 모든 가중치를 학습 대상으로 두고 갱신하는 전통적 방식입니다. 작업 적합도는 높지만, 모델이 커질수록 학습 비용과 GPU 메모리 부담이 급격히 커지고, 파인튜닝한 모델마다 수십억 개 파라미터를 통째로 저장·배포해야 하므로 비용이 큽니다.
PEFT (파라미터 효율적 파인튜닝)
Hugging Face의 PEFT(Parameter-Efficient Fine-Tuning) 라이브러리 설명에 따르면, PEFT 기법들은 "소수의 (추가) 파라미터만 학습시켜 연산·저장 비용을 크게 낮추면서도 전체 파인튜닝에 준하는 성능"을 냅니다. 그 결과 대형 언어모델을 소비자용 하드웨어에서도 학습·저장할 수 있게 됩니다. 대표 기법으로 LoRA, QLoRA, IA3, AdaLoRA 등이 있습니다.
LoRA (저랭크 적응)
LoRA(Low-Rank Adaptation)는 PEFT의 대표 기법으로, Edward J. Hu 외(2021)가 제안했습니다(arXiv:2106.09685). 사전학습 가중치는 동결한 채, 각 트랜스포머 레이어에 학습 가능한 저랭크 분해 행렬을 주입해 그 행렬만 학습합니다. 논문에 따르면 Adam으로 전체 파인튜닝한 GPT-3 175B와 비교해 학습 가능한 파라미터를 약 1만 배, GPU 메모리 요구량을 약 3배 줄이면서도, RoBERTa·DeBERTa·GPT-2·GPT-3에서 전체 파인튜닝과 동등하거나 더 나은 품질을 보였습니다. 추론 시 추가 지연도 없습니다.
파인튜닝 vs RAG
새 지식을 다루는 두 접근인 파인튜닝과 RAG(검색 증강 생성)는 자주 비교됩니다. RAG는 외부 데이터를 질의 시점에 검색해 모델에 주입하고, 파인튜닝은 정보를 모델 파라미터에 "굽습니다". 둘은 대체재가 아니라 보완재로, 실무에서는 함께 쓰기도 합니다.
| 구분 | 파인튜닝 | RAG (검색 증강 생성) |
|---|---|---|
| 작동 방식 | 도메인 데이터로 추가 학습해 가중치 조정 | 외부 지식원을 질의 시점에 검색해 컨텍스트로 주입 |
| 모델 변경 | 가중치·파라미터를 직접 수정 | 기반 모델은 그대로 두고 미수정 |
| 지식 최신성 | 학습 시점에 고정, 갱신하려면 재학습 필요 | 데이터 소스만 바꾸면 즉시 최신 정보 반영 |
| 강점 | 말투·출력 형식·전문 추론을 모델에 내재화 | 지식 집약 과제의 사실 정확도, 출처 추적 |
| 비용 | 학습 자원 필요, 작은 모델로 큰 모델 성능 대체 가능 | 일반적으로 파인튜닝보다 비용 효율적 |
| 적합한 상황 | 브랜드 페르소나, JSON 등 고정 형식, 특정 분야 마스터 | 오늘 뉴스·신규 사내 정책 등 자주 바뀌는 사실 |
근거와 사례
LoRA 논문(Hu et al., 2021, arXiv:2106.09685)은 모델이 커질수록 전체 파인튜닝이 비현실적이 되고, 파인튜닝한 대형 모델을 인스턴스마다 배포하는 비용이 과도하다는 문제의식에서 출발했습니다. 저랭크 행렬만 학습하는 방식으로 학습 파라미터를 약 1만 배 줄이면서 품질을 유지한 결과는, 이후 QLoRA·AdaLoRA 등 PEFT 계열 기법과 Hugging Face PEFT 라이브러리 생태계로 이어졌습니다.
RAG와 파인튜닝의 선택에 대해 Red Hat과 다수 업계 분석은, 사실 정확도가 중요한 지식 집약 과제에서는 RAG가 유리하고 일반적으로 더 비용 효율적인 반면, 모델의 동작·스타일·형식 자체를 바꾸려면 파인튜닝이 적합하다고 정리합니다. 가장 발전된 형태는 둘을 결합해, 파인튜닝으로 "전문가처럼 사고·발화"하도록 만들고 RAG로 "실시간 사실 라이브러리"에 접근시키는 하이브리드 접근입니다. 한편 OpenAI는 자사 파인튜닝 플랫폼을 점진적으로 종료(winding down) 중이라고 안내하고 있어, 도구 선택 시 제공자별 정책 변화도 함께 살펴야 합니다.