무슨 일인가

홍콩대 연구팀이 arXiv에 논문을 올렸어. 제목은 “Thinking with Imagination” — VLM(비전-언어 모델)이 눈앞에 없는 공간을 ‘상상’으로 추론하게 만드는 프레임워크야.

현재 VLM들은 보이는 이미지 안에서 추론은 잘하지만, 카메라가 찍지 않은 각도나 위치를 추론하는 건 약해. MMSI-Bench 기준으로 보면 사람은 97%를 맞히는데 최신 AI는 30-40%대야.

Astra 프레임워크는 이 문제를 이렇게 해결해:

  • Astra-WM: 월드 시뮬레이터 — 카메라 이동 방향을 주면 그 시점의 이미지를 AI가 생성
  • Astra-VL: VLM 정책 모델 — 언제 시뮬레이터를 호출할지 학습하는 RL 훈련 모델
  • 두 모듈이 협력해서 VLM이 “직접 가보지 않은 각도”를 상상해서 추론에 활용

벤치마크 결과

자체 실험 기준으로 이런 수치가 나왔어:

  • MMSI-Bench: Gemini-3-Flash가 45.1% → 49.5%
  • MMSI-Bench: Qwen3-VL이 29.8% → 38.8%
  • MindCube: Qwen3-VL이 36.8% → 42.7%

arXiv 프리프린트 단계라 독립 재현이 되지 않은 수치야. 성능 향상 자체보다 “VLM이 도구를 써서 상상하는 구조”를 처음으로 명시했다는 점이 논문의 의미야.

왜 관심이 가는가

VLM 공간 추론은 로봇, AR, 자율주행에서 필요한 핵심 능력이야. 지금까지는 더 좋은 모델을 훈련하는 게 주된 접근이었는데, 이 논문은 “세계를 상상해서 추론하는 에이전트 구조”를 도구화했어. 이 방향이 실용화되면 VLM 기반 코딩 에이전트가 UI를 보고 레이아웃을 “상상 탐색”하는 방식으로 진화할 수 있어.