무슨 일이 일어났나

사람한테 산수를 가르치는 교수법을 그대로 언어모델 학습에 넣어본 연구가 arXiv에 올라왔어. 인도네시아의 GASING이라는 교수법인데, 산수를 왼쪽에서 오른쪽으로 푸는 절차야. 이게 토큰 생성 순서랑 방향이 맞거든. 연구진은 이 절차의 풀이 과정을 자연어 Chain-of-Thought 데이터로 바꿔서 8600만 파라미터짜리 GPT-2를 학습시켰어.

어떻게 작동하나

핵심은 강화학습을 안 썼다는 거야. 그냥 다음 토큰 예측(next-token prediction)만으로 학습했는데, 모델이 세 단계를 거쳐 배우더라는 거지. 처음엔 절차를 따라 풀다가, 나중엔 단계를 일일이 안 밟고 결과를 바로 떠올리는 ‘암산’에 가까운 방식으로 넘어갔어. 연구진은 어텐션 마스킹 개입, residual stream 탐침, logit lens 같은 방법으로 모델 내부에서 실제로 그런 전환이 일어나는지도 뜯어봤거든.

실무에서 왜 중요한가

작은 모델로도 학습 데이터를 잘 설계하면 능력을 끌어올릴 수 있다는 방향을 보여주는 거야. held-out 문제에서 80%를 넘겼고, 훨씬 큰 모델이랑 견줄 만한 성능이 나왔거든. 다만 기초 산수에 한정된 결과라 일반 추론까지 그대로 간다고 보긴 일러. 그래도 “데이터를 어떻게 가르치느냐”가 모델 크기만큼 중요할 수 있다는 신호로 읽을 만해.