파인튜닝한 모델이 학습 데이터를 그대로 뱉은 적 있잖아

파인튜닝모델한테 뭘 물었더니 학습에 넣은 문장을 토씨 하나 안 틀리고 그대로 돌려준 적, 한 번쯤 있을 거야. 저작권 데이터나 개인정보가 그렇게 새면 곤란하지. 새로 나온 논문 How LoRA Remembers는 그 “통째로 외우는” 순간이 언제 생기는지를 수식으로 잡았어.

임계점은 예측 확률 0.5

핵심은 토큰 단위 상전이야. 모델이 다음 토큰을 맞힐 확률이 0.5를 넘으면, 그리디 디코딩에서 그 토큰을 정확히 복원해. 그 아래면 못 외운 상태고. 외우느냐 마느냐가 부드럽게 변하는 게 아니라 0.5를 경계로 딱 갈린다는 거야. 연구진은 여기에 더해 손실 감소량(ΔL)이 유효 파라미터 수와 시퀀스 길이를 따라 멱법칙으로 움직인다는 ‘파라메트릭 메모리 법칙’도 제시했어.

그래서 뭐가 달라지나

이게 실무에서 의미가 있는 건, 어떤 데이터를 LoRA로 학습시킬 때 그게 외워질지 말지를 미리 가늠할 축이 생긴다는 거야. 연구진은 이걸 거꾸로 쓴 MemFT라는 방법도 내놨어. 확률이 0.5에 못 미치는 토큰 쪽으로 학습 예산을 몰아줘서, 같은 비용으로 기억 정확도를 끌어올리는 식이야. 코드는 github.com/zjunlp/ParametricMemoryLaw에 공개하겠다고 했어.

주의할 점

아직 arXiv 프리프린트야. 2026년 5월 28일 올라온 진행 중 연구라 동료 평가도, 독립 재현도 아직 없어. 0.5라는 경계도 그리디 디코딩 기준이라, 샘플링 방식이 바뀌면 그대로 적용되는지는 따로 봐야 해. 코드도 공개 전이라 직접 돌려보긴 어렵고, 결론은 일단 참고만 하는 게 맞아.