무슨 일이야
2026-06-15 arXiv에 올라온 Human-on-the-Bridge 논문은 AI 에이전트 평가의 근본적인 문제를 짚어. 한 줄 요약하면 “우리는 에이전트를 단순 응답 생성기처럼 테스트하고 있는데, 그게 문제야” — 에이전트는 여러 턴에 걸쳐 도구를 호출하고 컨텍스트를 유지하며 정책을 따라 행동하는 행동 시스템이거든. 그런데 기존 벤치마크는 단발 응답만 보고 있어.
왜 지금 이게 문제야
LLM 에이전트를 업무에 쓰는 사람이라면 이미 느꼈을 거야. 단순 QA 테스트에서 잘 나오는 모델이 실제 다단계 작업에선 엉뚱하게 행동하거나 컨텍스트를 잃어버리는 경우가 많거든. Human-on-the-Bridge는 이 괴리를 메우기 위해 사람이 “브리지 위 책임자”처럼 필요한 시점에 개입하면서 에이전트를 평가하는 방법론을 제안해. 기존 평가 방식이 놓치는 행동적 특성 4가지 — 멀티턴 추론, 도구 호출, 컨텍스트 보존, 불확실성 하의 행동 — 를 모두 커버한다는 게 이 논문의 차별점이야.
나한테 뭐가 달라져
에이전트를 도입하려는 팀이라면 평가 기준을 다시 생각해볼 시점이야. 논문이 제안하는 평가 포인트 3가지는 이거야:
- 멀티턴 태스크 성공률: 5단계짜리 작업을 처음부터 끝까지 스스로 완료하는가
- 컨텍스트 보존: 긴 세션에서도 초기 지시와 맥락을 유지하는가
- 정책 준수: 내가 정한 제약 조건 안에서 행동하는가
당장 적용할 구현이 아니라, “내 에이전트를 어떻게 검증할까”를 다시 짚는 출발점으로 쓰면 좋아. ⚠️ arXiv 프리프린트라 동료 심사 전 결과인 거 참고해.