GEO·AI 검색

RLHF

RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)는 사람의 선호 데이터로 보상 모델을 학습한 뒤, 그 보상을 강화학습으로 최적화해 거대언어모델(LLM)을 사람의 의도와 가치에 정렬하는 기법입니다. 같은 답변이라도 사람이 더 선호하는 출력을 내도록 모델 행동을 조정하는 것이 목적입니다.

RLHF는 사람의 선호 비교 데이터로 보상 모델을 학습하고, 그 보상을 강화학습으로 최적화해 LLM을 사람 의도에 정렬하는 기법입니다.
표준 RLHF는 지도 미세조정(SFT) → 보상 모델 학습 → PPO 강화학습의 3단계로 진행됩니다.
OpenAI의 InstructGPT 논문에서 1.3B 파라미터 RLHF 모델이 100배 큰 175B GPT-3보다 사람 평가에서 더 선호되었습니다.
강화학습 단계에는 KL 발산 페널티를 두어 모델이 원본에서 과도하게 벗어나 보상을 해킹하는 현상을 억제합니다.
최근에는 별도 보상 모델과 RL 루프를 없앤 DPO가 더 단순하고 안정적인 대안으로 제시되었습니다.

개요

RLHF(Reinforcement Learning from Human Feedback)는 사람의 선호 데이터로 보상 모델을 학습한 뒤, 그 보상 신호를 강화학습으로 최적화해 거대언어모델을 사람의 의도와 가치에 맞추는 정렬(alignment) 기법입니다. 사전학습만 거친 LLM은 다음 토큰을 잘 예측할 뿐, '사람이 실제로 원하는 방식으로 도움을 주는' 행동까지 보장하지는 않습니다. RLHF는 바로 이 간극을 메우기 위해, 어떤 답변이 더 나은지에 대한 사람의 판단을 학습 신호로 바꿔 모델 행동을 교정합니다. ChatGPT와 Claude를 비롯한 오늘날 주요 대화형 모델이 공통적으로 채택한 핵심 정렬 방법입니다.

RLHF가 중요한 이유는 '좋은 답변'이라는 목표가 명시적 수식으로 정의하기 어렵기 때문입니다. 유용함, 정직함, 무해함 같은 속성은 주관적이고 맥락에 따라 달라지므로, 정답 레이블 대신 사람의 상대적 선호(A가 B보다 낫다)를 모아 모델이 따라야 할 방향을 간접적으로 정의합니다.

3단계 파이프라인

OpenAI의 InstructGPT 논문(Ouyang et al., 2022)이 정립한 표준 RLHF는 세 단계로 구성됩니다.

1단계: 지도 미세조정(SFT)

먼저 사람 작업자가 직접 작성한 모범 답변(시연 데이터)으로 사전학습 모델을 지도학습 방식으로 미세조정합니다. 이 단계에서 모델은 지시문에 응답하는 기본 형식과 톤을 익히며, 이후 강화학습의 출발점이 되는 초기 정책(policy)을 만듭니다.

2단계: 보상 모델 학습

같은 프롬프트에 대해 모델이 생성한 여러 출력을 사람이 좋은 순서대로 순위 매깁니다. 직접 점수를 매기는 대신 출력 간 비교·순위를 사용하면 평가자 간 편차가 줄고 더 안정적인 데이터가 만들어집니다. 이 선호 데이터로 임의의 답변에 스칼라 점수를 부여하는 보상 모델(reward model)을 학습합니다.

3단계: 강화학습(PPO)

마지막으로 보상 모델의 점수를 보상으로 삼아, 주로 PPO(Proximal Policy Optimization) 알고리즘으로 LLM을 강화학습합니다. 이때 보상 함수에는 현재 정책이 SFT 초기 모델에서 너무 멀어지지 않도록 하는 KL 발산 페널티를 함께 넣습니다. 이 제약이 없으면 모델이 보상 모델의 허점을 파고들어 점수만 높고 실제로는 어색하거나 무의미한 텍스트를 만드는 '보상 해킹'이 발생할 수 있습니다. Anthropic의 helpful·harmless 어시스턴트 연구(Bai et al., 2022)는 RL 보상과 KL 발산의 제곱근 사이에 대략 선형 관계가 있음을 보고하기도 했습니다.

의의와 근거

RLHF의 효과를 단적으로 보여준 결과가 InstructGPT입니다. 논문에 따르면 RLHF로 정렬한 1.3B 파라미터 모델의 출력이, 파라미터가 100배 많은 175B GPT-3보다 사람 평가에서 더 선호되었습니다. 동시에 정렬 학습은 진실성을 높이고 유해 출력을 줄이면서도 표준 NLP 벤치마크 성능 저하는 최소화했습니다. 단순히 모델을 키우는 것보다 사람 피드백으로 정렬하는 편이 '실제로 유용한 답변'에서 더 효과적일 수 있음을 보여준 사례입니다.

Anthropic의 연구(Bai et al., 2022)는 RLHF를 유용하고 무해한 어시스턴트 학습에 적용하면서, 매주 새로운 사람 피드백으로 보상 모델과 정책을 반복 갱신하는 방식을 제시했습니다. 또한 정렬 학습이 거의 모든 NLP 평가에서 성능을 개선했으며 코딩·요약 같은 전문 능력 학습과도 충돌하지 않았다고 보고했습니다.

다만 표준 RLHF는 보상 모델 학습과 PPO 루프를 모두 운영해야 해 구현이 복잡하고 불안정할 수 있습니다. 이를 단순화한 대안이 DPO(Direct Preference Optimization, Rafailov et al., 2023)입니다. DPO는 보상 모델을 정책의 닫힌 형태로 다시 매개화해, 별도 보상 모델과 강화학습 루프 없이 선호 데이터를 단순 분류 손실로 직접 최적화합니다. 논문은 DPO가 PPO 기반 RLHF보다 구현·학습이 단순하고 안정적이며 계산 부담이 적으면서도, 감성 제어나 대화 품질 같은 과제에서 동등하거나 더 나은 성능을 낸다고 보고합니다. 한편 Anthropic은 사람 대신 AI가 원칙(constitution)에 따라 피드백을 생성하는 RLAIF(Constitutional AI, Bai et al., 2022) 방향도 제시했는데, 이는 대량의 사람 라벨 비용을 줄이는 확장 가능한 접근입니다.

개요

3단계 파이프라인

1단계: 지도 미세조정(SFT)

2단계: 보상 모델 학습

3단계: 강화학습(PPO)

의의와 근거

참고·출처