무슨 일이 있었나
비전-언어 모델(VLM)의 3D 공간 추론을 다루는 새 프레임워크 SpatialClaw가 arXiv에 올라왔어. 물체가 어디 있고 서로 어떻게 놓였고 어떻게 움직이는지 같은 공간 판단은 아직 VLM이 잘 못하는 영역인데, 이걸 학습 없이 코드 실행 방식으로 풀었어. 20개 공간 추론 벤치마크에서 평균 59.9% 정확도를 냈고, 기존 공간 에이전트보다 11.2%p 높았어.
무엇이 다른가
핵심은 에이전트가 툴을 부르는 방식을 바꾼 거야. 기존 공간 에이전트는 두 갈래였어.
- 단일 패스 코드 실행: 중간 결과를 보기 전에 분석 전략을 한 번에 정해버려서 도중에 바꾸기 어려웠어.
- 구조화된 함수 호출: 정해진 툴만 부를 수 있어서 작업마다 분석을 자유롭게 조합하기 어려웠어.
SpatialClaw는 대신 코드 자체를 행동 인터페이스로 써. 입력 프레임과 인식·기하 도구를 미리 올려둔 Python 커널을 계속 유지하고, 에이전트가 단계마다 이전 출력 전부를 보고 실행 가능한 코드 한 셀씩 써 내려가. 그래서 중간 결과를 보고 분석 방향을 바꾸는 게 가능해져.
어떤 의미인가
에이전트한테 도구를 붙일 때 “구조화된 함수 호출이 항상 안전하다”는 전제를 다시 보게 만드는 결과야. 작업이 정형화돼 있으면 함수 호출이 편하지만, 공간 추론처럼 도중에 전략을 바꿔야 하는 열린 문제에서는 코드 실행 방식이 더 유연하다는 거지. 같은 방식이 6개 VLM 백본에서 추가 튜닝 없이 비슷하게 먹혔다는 점도 봐둘 만해. 다만 11.2%p라는 숫자는 저자 자체 측정이라, 외부에서 같은 결과가 나오는지는 좀 더 지켜봐야 해.