무슨 일이 일어났나

LLM한테 단계별로 생각하게 시키면, 중간에 한 번 삐끗할 때 그 오류가 뒤 단계로 계속 번지잖아. 옥스퍼드 쪽 연구진이 이걸 틀린 구간만 골라 되돌려 고치는 방법을 arXiv에 올렸어. TRI라고 부르는데, 처음부터 다시 풀게 하는 대신 망가진 부분만 수리해서 문제당 토큰31.2% 덜 썼다고 보고했거든.

어떻게 작동하나

보통 chain-of-thought는 앞에서 뒤로만 흘러서, 각 단계가 이전 토큰만 보고 이어져. 그래서 앞에서 틀린 한 줄이 끝까지 오염시키는 거야. TRI는 검증기가 오류를 잡아내면 그 구간을 빈칸 메우기 문제로 바꿔서, 맞다고 확인된 앞부분과 뒷부분 사이를 다시 채워. 이걸 위해 Prefix-Suffix-Middle로 순서를 재배열하고 sentinel 토큰을 끼워서, 평범한 인과 트랜스포머가 앞뒤를 같이 보게 만들었어. 학습은 두 단계야. 형식 검증된 추론 묶음으로 먼저 지도학습하고, Lean 4랑 파이썬 검증기로 정답을 거른 선호 최적화를 덧붙였거든.

실무에서 왜 중요한가

추론을 시킬 때 드는 비용이 달라지는 대목이야. 틀린 단계를 통째로 버리고 재시작하는 대신 구간 수리로 가면, 같은 문제를 더 적은 토큰으로 푸니까 추론 단가가 내려가. 다만 아직 프리프린트라 피어 리뷰 전이고, ‘state-of-the-art’랑 31.2%는 저자가 직접 잰 수치야. Lean 4 같은 형식 검증기로 정답을 거르는 구조라, 검증이 어려운 일반 자연어 추론까지 그대로 통할지는 더 지켜봐야 해.