“소형 모델이 자기 실수로 스스로 학습해서 HumanEval 80%에 도달했다.” Reddit r/LocalLLaMA에 올라온 이 실험이 190개 좋아요를 받으며 화제야. 글쓴이는 DeepSeek-R1 논문을 읽다가 한 줄에 멈췄다고 해. “모델은 검증 가능한 보상을 통해 스스로 개선될 수 있다”—이 아이디어를 직접 구현한 거야.
방법이 단순한데도 효과적이었어. RLVR(Reinforcement Learning from Verifiable Rewards) 이라고 부르는 기술인데, 코드를 실제로 실행해서 맞으면 양성 보상, 틀리면 음성 보상을 주는 루프를 돌리는 거야. 사람이 피드백을 주는 게 아니라 코드 실행 결과 자체가 교사 역할을 하는 거거든. 소형 모델에 수백 회 이 루프를 돌리고 나니 코딩 벤치마크인 HumanEval에서 80%를 넘었다는 결과가 나왔어.
DeepSeek-R1이 거대 모델에 적용한 개념을 소형 모델로 개인이 재현했다는 게 이 실험이 주목받는 이유야. 대규모 컴퓨팅 없이도 검증 가능한 태스크(코딩, 수학)에서는 자기 교정 루프가 효과적으로 작동한다는 거거든. 의미 있는 건 이게 파인튜닝이나 더 많은 데이터 없이, 기존 모델이 스스로 능력을 높이는 패턴이라는 점이야.
로컬 LLM을 연구하거나 특정 도메인에 AI를 적용하려는 사람이라면 이 실험이 중요한 힌트가 돼. 검증 가능한 정답이 있는 도메인(코딩, 수학, 논리 퀴즈)에서는 자기 학습 루프를 돌리는 게 가능하다는 뜻이니까. 대기업 AI 연구소 방식을 개인 수준에서 재현할 수 있는 가능성이 열리고 있어.