무슨 일이 있었나
RAG의 검색 기준을 의미 유사도에서 “추론에 도움되는 순”으로 바꾼 RA-RFT가 arXiv에 올라왔어. LLM을 외부 지식에 연결할 때 RAG는 거의 기본이 됐는데, 보통은 단어가 겹치거나 의미가 비슷한 문서를 끌어와. 논문은 이 방식이 복잡한 추론에는 잘 안 맞는다고 짚어. 의미가 비슷한 문제라도 풀이 전략은 완전히 다를 수 있고, 겉보기엔 달라 보여도 같은 추론 패턴을 쓰는 문제가 있거든.
어떻게 풀었나
RA-RFT는 검색기를 학습시키는 방식부터 바꿔. gold-relevance distillation이라는 방법으로, 의미가 얼마나 겹치는지가 아니라 그 컨텍스트가 추론에 얼마나 도움이 될지를 기준으로 순위를 매기게 해. 그렇게 고른 유추 예시를 문제에 붙여서, 정책 모델을 강화학습 방식(RL) fine-tuning으로 추가 학습시키는 구조야. 비슷한 걸 찾는 게 아니라, 같은 추론 패턴을 쓰는 사례를 찾아서 그걸로 모델을 가르치는 거지.
수치로는 얼마나 올랐나
검증은 수학 추론 벤치마크 AIME 2025에서 했고, 측정은 average@32(32번 샘플링 평균 정확도) 기준이야.
GRPO는 요즘 추론 모델 학습에 흔히 쓰는 강화학습 방식이라, 그걸 기준선으로 두고 더 올렸다는 의미야. 작은 모델일수록 향상폭이 컸다는 점도 눈에 띄어.
어떤 의미인가
추론이나 에이전트용 RAG를 만드는 입장에서 보면, “검색 품질 = 의미 유사도”라는 기본 가정을 다시 볼 신호야. 임베딩으로 비슷한 문서를 잘 끌어와도 풀이에 안 맞으면 소용이 없으니까. 검색 기준을 “이 사례가 실제로 답을 맞히는 데 도움이 됐나”로 옮기는 접근이고, 그걸 검색기 학습 목표에 직접 넣은 거지. 다만 7.1점·2.8점은 저자 자체 측정이고 벤치마크도 AIME 2025 한 종류라, 내가 쓰는 도메인에서도 같은 폭으로 나올지는 직접 돌려보고 판단하는 게 맞아.