이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

최강 모델 GPT-5도 현실 공간 과제 17%만 성공했어

새 벤치마크 SpatialWorld가 멀티모달 AI 에이전트를 집안일·여행 같은 실제 상호작용 과제 760개로 평가했어. 정적 이미지 문답이 아니라 직접 움직이며 시각 단서를 모아 푸는 방식이야. 15개 모델 중 1위 GPT-5도 평균 성공률 17.4%, 오픈소스 1위 Qwen-3.5는 14.1%에 그쳤어.

무슨 일이 있었나

AI 에이전트가 실제 세상에서 얼마나 일을 해내는지 재보는 새 벤치마크 SpatialWorld가 나왔어. 정적 이미지 보고 답하는 시험이 아니라, 집안일·여행처럼 진짜 상호작용이 필요한 과제 760개를 사람이 직접 주석해서 만들었어. 흩어져 있던 시뮬레이터 8개를 하나의 프로토콜로 묶었고, 모델 15개를 같은 기준으로 돌려봤지.

점수가 어떻게 나왔나

결과가 좀 냉정해. 1위였던 GPT-5도 평균 과제 성공률(TSR)이 17.4%였거든. 오픈소스 중 가장 잘한 Qwen-3.5는 14.1%였고. 열 번 시키면 한두 번 끝낸다는 얘기야. 논문은 이게 능동 탐색과 장기 계획에서 막히기 때문이라고 봐. 풀이 방식이 까다로운 것도 있어. 모델한테 정답 이미지를 통째로 주지 않고, 1인칭 시점으로 주변을 직접 둘러보며 시각 단서를 모은 다음 텍스트 명령으로 움직이게 했거든.

어떤 의미인가

에이전트를 물리·상호작용 현실에 맡기는 건 아직 이르다는 신호야. 벤치마크에는 초기 상태, 참조 궤적, 종료 상태 검증기까지 들어 있어서 채점이 후하지 않아. 다만 짚어둘 게 있어. 이건 arXiv 프리프린트라 동료 심사를 안 거쳤고, 17.4%·14.1% 같은 수치도 저자들이 만든 벤치마크의 자체 측정값이야. 외부에서 재현된 결과는 아직 없거든. 그러니 ‘GPT-5가 못한다’로 못 박기보다, ‘논문이 이렇게 보고했다’ 정도로 받아두는 게 맞아. 업무자동화에 에이전트를 붙일 때 데모와 실제 작업 성능을 분리해서 볼 근거로는 충분해.

태그

#spatial-reasoning#ai-agent#multimodal#benchmark#gpt-5

포맷 v3 가이드 news 3.4.1

팩트 체크

통과 · 2026-06-10 KST

검증 생성: AI + 편집 검토 · 2026-06-10 상태: 통과

통과 원문 대조

arXiv 초록의 벤치마크 구성과 수치를 본문과 대조했어.

벤치마크 이름 SpatialWorld, 인간 주석 과제 760개 — 초록에서 확인
이종 시뮬레이터 8개를 하나의 프로토콜로 통합, 평가 모델 15개 — 초록에서 확인
vision-only 부분 관찰: 에이전트가 1인칭 시각 단서를 직접 모으고 텍스트 행동으로 결정 — 초록에서 확인
초기 상태·참조 궤적·종료 상태 검증기 포함 — 초록에서 확인

통과 교차 검증 검증 출처 2

arXiv 초록·전문 렌더로 수치를 확인하되 독립 3자 검증은 없음을 명시했어.

1차 출처 교차검증: arXiv 초록(abs)과 전문 HTML 렌더(html)에서 760·8·15·17.4%·14.1%가 동일함을 따로 대조했어
독립 3자 재현·검증은 못 찾았어 — 발표 직후 프리프린트라 인용 매체와 검색 결과가 모두 같은 arXiv 논문으로 수렴해서, 이건 보조 신호로만 봤어
그래서 본문은 'GPT-5가 실패한다'가 아니라 '논문이 17.4%로 보고한다'로 주장 강도를 낮춰 적었어

통과 수치 검증

본문·요약의 모든 수치를 초록 기준으로 확인했어.

GPT-5 평균 과제 성공률(TSR) 17.4% — 초록에서 확인
Qwen-3.5 14.1% — 초록에서 확인
인간 주석 과제 760개 — 초록에서 확인
통합 시뮬레이터 8개, 평가 모델 15개 — 초록에서 확인

통과 비판 검토

출처 성격과 빠진 맥락을 검토했어.

이 논문은 arXiv 프리프린트로 동료 심사를 안 거쳤어 — 본문에 표기
수치는 저자들이 만든 벤치마크의 자체 측정값이고 외부 재현이 아직 없어 — 본문에 표기
성공률과 실행 효율의 불일치, 도메인별 편차가 크다는 한계도 저자 보고라 후속 검증이 필요해

프리프린트·미동료심사·저자 자체 벤치마크 → 독립 검증 전까지 단정 회피 (본문 반영 완료)
단일 출처(arXiv) 수렴 → 'GPT-5 실패' 대신 '논문 보고치'로 표현 낮춤 (수정 완료)

출처: arXiv — SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks , arXiv HTML — SpatialWorld (전문 렌더)