여러 LLM 에이전트를 묶어서 복잡한 추론을 시키면 협업으로 더 잘 풀긴 하는데, 한 가지 골치 아픈 게 있어. 결과가 틀렸을 때 “어디서 틀렸지?”를 찾기가 어렵거든. 에이전트들이 주고받는 과정은 미분이 안 되는 이산적인 그래프라, 보통 신경망처럼 오류를 역으로 흘려보내 책임을 추적하는 게 안 돼. 2026년 5월 28일 arXiv에 올라온 이 논문이 그 문제를 다뤄.
핵심 아이디어는 오류 신호를 두 축으로 쪼개는 거야. 하나는 시간 축이야. 여러 라운드 중 어느 결정 단계가 결정적으로 망쳤는지를 state-space bottleneck이라는 방식으로 짚어. 다른 하나는 구조 축이야. 어떤 에이전트가 제 역할을 못 했는지를 고정된 역할 정책으로 가려내. 그러니까 “언제 틀렸나”와 “누가 틀렸나”를 따로 본다는 거야.
그다음엔 전체를 다 손대지 않아. 이산 블록 좌표 하강이라는 방법으로 가장 약한 부분만 골라서 반복적으로 고쳐. 에이전트 프롬프트랑 결과를 모으는 방식을 번갈아 다듬는데, 이때 LLM이 만들어내는 “프록시 그라디언트”를 방향 신호로 써. 논문은 이렇게 하면 질의 횟수를 크게 줄이면서도 추론 벤치마크 성능이 올라갔다고 적었어.
실무 감각으로 보면, 멀티에이전트를 디버깅할 때 전부 다 갈아엎는 대신 약한 지점만 콕 집어 고치는 방향이 있다는 거야. 다만 아직 동료심사 전 프리프린트(15페이지, 표 6개)라 정확한 수치는 본문 표를 직접 봐야 하고, 결과는 저자 자체 실험이라 독립 재현이 필요해.