무슨 일이 있었나

r/singularity“LLMs do fine on ARC-AGI-3 if they are allowed to search over game logs” 라는 글이 5월 2일 올라왔어. 직전에 화제가 됐던 ARC-AGI-3 결과GPT-5.5 High 0.43%, Anthropic Opus 4.7 0.18% — 가 사실 모델 능력이 부족해서가 아니라 평가 셋업(harness)이 도구 사용을 막아서라는 주장이야. 작성자는 “Hill-climbing ARC-AGI-3” 실험을 인용하면서 게임 로그 검색을 허용하면 결과가 크게 달라진다고 했어.

왜 이런 차이가 나나

ARC-AGI-3는 인터랙티브 환경에서 에이전트가 효율적으로 탐색·적응·행동해야 하는 추론 벤치마크야. 공식 LLM 에이전트는 RESET, ACTION1~6 같은 정해진 액션만 쓸 수 있어. 그런데 일반 LLM컨텍스트에 게임 로그(이전 시도의 입출력)를 모아서 패턴을 인식하는 셋업이 가능해지면 얘기가 달라진다는 거지.

  • 원본 셋업: 모델 단독 추론, 도구 없음 → 1% 미만
  • 변경 셋업: 게임 로그 검색 + hill-climbing 탐색 허용 → 본문에서는 “huge difference”라고만 서술 (정확한 수치는 외부 블로그에)
  • 인간 평균: 60%대로 ARC Prize 공식 leaderboard 기준

어떤 의미인가

AI 능력 헤드라인을 액면 그대로 받기 어려운 이유야. “최강 모델이 0.43%“라는 표현은 강렬하지만, 평가모델의 능력만 측정하는지, 아니면 모델+도구 조합 능력을 측정하는지에 따라 결론이 갈린다.

물론 ARC-AGI-3 설계자 입장에서는 도구 허용은 본래 의도가 아닐 수 있어. “모델 자체의 일반화 능력”을 보고 싶은 거니까. 하지만 실제 사용 환경에서 LLM은 거의 항상 도구와 결합해서 굴러가. 그러면 “도구 결합 시 능력”이 더 현실적인 수치라는 반론도 충분히 성립해.

요약하면: ARC-AGI-3 점수 자체로 AGI 도달 여부를 판정하기엔 평가 셋업의 가정이 너무 깊어. 발표 점수보다 셋업 정의를 같이 봐야 한다는 신호로 받자.