무슨 일이 있었나

여러 LLM 에이전트를 조율하는 오케스트레이터를 따로 보상 모델로 학습시키는 OrchRM이 arXiv에 올라왔어. 전문 에이전트를 여럿 두고 묶어 쓰는 멀티 에이전트 시스템(MAS)은 누가 언제 뭘 하게 할지를 잘 조율해야 하는데, 그 조율 품질을 학습시키는 게 데이터도 부족하고 계산 비용도 컸어. OrchRM은 그 부분만 떼서 다뤄.

어떻게 풀었나

OrchRM은 서브 에이전트를 매번 다시 돌려보는 비싼 시뮬레이션을 안 해. 대신 멀티 에이전트가 실행되는 동안 나오는 중간 출력에서 이기고 지는 비교쌍을 직접 만들어. 이 비교쌍으로 Bradley-Terry 보상 모델을 조율 단계에 맞춰 학습시키는 방식이야. 사람이 라벨을 달지 않아도 되는 self-supervised 구조라, 라벨 데이터가 없다는 원래 문제를 비켜가.

결과는 두 가지로 정리돼.

  • 학습 효율 10배: 토큰 사용량 기준으로 기존 방식보다 10배 적게 들었어.
  • 정확도 8% 향상: 멀티 에이전트 테스트타임 스케일링에서 정확도가 8% 올라갔어.

이 효과는 수학 추론, 웹 기반 질의응답, 멀티홉 추론 세 도메인에서 일관되게 나왔어.

어떤 의미인가

멀티 에이전트를 실제로 키워 쓰는 입장에서 보면, “에이전트 각각의 성능”과 “이들을 조율하는 품질”을 분리해서 측정하고 개선할 수 있다는 신호야. 그동안 조율은 프롬프트로 어떻게든 맞추는 영역이었는데, 여기에 보상 모델을 붙여서 따로 학습 대상으로 삼은 거지. 다만 10배와 8%는 저자 자체 측정이라, 내가 쓰는 환경에서도 같은 폭으로 나올지는 직접 돌려보고 판단하는 게 맞아.