무슨 일인가

몬트리올 대학교(MILA) 연구팀이 LLM 추론 실패 궤적에 관한 논문을 arXiv에 올렸어. 핵심 주장은 이거야 — “실패한 추론 흔적도 버리지 마. 어떤 개입이 통할지 알려주는 신호가 담겨 있거든.”

팀은 실패를 두 종류로 분류했어:

  • 운이 나쁜 실패: 더 많이 시도하면 풀 수 있어. 재샘플링이 답이야.
  • 구조적 실패: 그냥 다시 시도한다고 안 돼. 다른 개입이 필요해.

이걸 어떻게 구별하냐고? 실패 궤적의 텍스트를 읽는 게 아니라 분포적 신호를 쓰는 거야. 3가지 궤적 수준 특징을 추출하면 실패 유형을 84.3%±4.3% 정확도로 분류할 수 있었어.

왜 관심이 가는가

추론 에이전트를 운영하다 보면 실패가 쌓여. 지금까지는 대부분 그냥 버렸는데, 이 방법은 “이 실패는 재시도하면 돼 / 이건 프롬프트를 바꿔야 해 / 이건 더 강한 모델이 필요해”를 자동으로 라우팅하는 걸 목표로 해.

베이스라인 대비 +20%, 어려운 케이스(재샘플링으로 안 되는 것)에서 +12.2%의 향상이 나왔어. 논문이 arXiv 프리프린트 단계라 외부 재현은 아직이지만, 실패를 처리하는 방향 자체가 실용적이거든.

어디에 쓸 수 있나

멀티스텝 코딩 에이전트나 Tool use 에이전트를 운영하는 팀에 직접 관련돼. 어떤 실패에 재시도를 걸고 어떤 실패에 폴백 전략을 쓸지 판단하는 데 쓸 수 있어.