한 줄 정의
RLHF는 사람이 선호하는 응답을 기준으로 모델 행동을 조정하는 학습 방식이야. 모델을 처음부터 다시 만드는 말이라기보다, 이미 학습된 모델을 사람 기준에 더 맞게 다듬는 후반 정렬 공정이라고 보면 돼. 그래서 RLHF가 언급되면 보통 ‘더 똑똑해졌다’보다 ‘더 사람 취향과 정책에 맞게 반응하게 됐다’ 쪽에 무게가 실려 있어.
어떻게 작동하나
대표적인 설명은 세 단계로 잡아 볼 수 있어. 먼저 기본 언어 모델이 있고, 그다음 사람이 여러 답변 중 더 나은 답을 고른 선호 데이터를 모아서 보상 모델이나 선호 모델을 만들고, 마지막에 그 신호를 써서 원래 모델을 다시 조정해. 허깅페이스 RLHF 설명처럼 핵심은 ‘사람이 뭘 더 낫다고 느끼는지’를 숫자 신호로 바꾸는 데 있어. 그래서 정답 하나를 맞히는 학습과는 결이 조금 달라.
왜 중요한가
같은 베이스 모델이라도 RLHF를 거치면 말투, 거절 방식, 유용성, 안전 반응이 꽤 달라질 수 있어. 실제 서비스에서 사용자 체감이 크게 달라지는 이유가 여기서 많이 나와. 또 RLHF를 알면 왜 모델 회사들이 인프라 성능 못지않게 데이터 라벨링, 정책 설계, 보상 설계를 중요하게 보는지 이해하기 쉬워져. 제품 품질이 단순 파라미터 크기만으로 결정되지 않는다는 뜻이기도 해.
주의해서 볼 점
RLHF가 자동으로 진실성과 안전을 보장해 주는 건 아니야. 사람이 준 피드백이 편향돼 있으면 그 편향도 더 세게 학습할 수 있고, 보상 해킹 같은 문제도 생길 수 있어. 그리고 요즘은 DPO처럼 다른 선호 최적화 방식도 많이 써. 그래서 RLHF를 모든 정렬 기법의 총칭처럼 쓰면 금방 헷갈려.
관련 용어
- pytorch: RLHF 파이프라인을 실제로 구현할 때 자주 쓰는 학습 프레임워크야. 개념과 구현 층위를 나눠 보는 데 도움이 돼.
- alignment: RLHF가 왜 필요한지 설명하는 상위 목표야. 모델을 사람 의도와 정책에 맞추는 큰 문맥이 여기야.
- fine-tuning: RLHF도 넓게 보면 추가 학습이지만, 사람 선호 신호를 쓰는 점이 일반 지도 미세조정과 달라.
- distillation: 큰 모델의 행동을 더 작은 모델로 옮기는 기법이야. RLHF처럼 행동을 다듬는 말과 목적이 섞이지 않게 같이 보면 좋아.