무슨 일이 있었나
AI 에이전트가 실제 세상에서 얼마나 일을 해내는지 재보는 새 벤치마크 SpatialWorld가 나왔어. 정적 이미지 보고 답하는 시험이 아니라, 집안일·여행처럼 진짜 상호작용이 필요한 과제 760개를 사람이 직접 주석해서 만들었어. 흩어져 있던 시뮬레이터 8개를 하나의 프로토콜로 묶었고, 모델 15개를 같은 기준으로 돌려봤지.
점수가 어떻게 나왔나
결과가 좀 냉정해. 1위였던 GPT-5도 평균 과제 성공률(TSR)이 17.4%였거든. 오픈소스 중 가장 잘한 Qwen-3.5는 14.1%였고. 열 번 시키면 한두 번 끝낸다는 얘기야. 논문은 이게 능동 탐색과 장기 계획에서 막히기 때문이라고 봐. 풀이 방식이 까다로운 것도 있어. 모델한테 정답 이미지를 통째로 주지 않고, 1인칭 시점으로 주변을 직접 둘러보며 시각 단서를 모은 다음 텍스트 명령으로 움직이게 했거든.
어떤 의미인가
에이전트를 물리·상호작용 현실에 맡기는 건 아직 이르다는 신호야. 벤치마크에는 초기 상태, 참조 궤적, 종료 상태 검증기까지 들어 있어서 채점이 후하지 않아. 다만 짚어둘 게 있어. 이건 arXiv 프리프린트라 동료 심사를 안 거쳤고, 17.4%·14.1% 같은 수치도 저자들이 만든 벤치마크의 자체 측정값이야. 외부에서 재현된 결과는 아직 없거든. 그러니 ‘GPT-5가 못한다’로 못 박기보다, ‘논문이 이렇게 보고했다’ 정도로 받아두는 게 맞아. 업무자동화에 에이전트를 붙일 때 데모와 실제 작업 성능을 분리해서 볼 근거로는 충분해.