이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

ARC-AGI-3는 LLM이 바보라서가 아니라 도구가 없어서 0%였다 — 검색 붙이면 결과가 달라져

r/singularity에 ARC-AGI-3 후속 글이 올라왔어. GPT-5.5 0.43%, Opus 4.7 0.18%로 처참했던 벤치마크에 게임 로그 검색 도구를 붙이면 결과가 크게 달라진다는 주장이야. 'Hill-climbing ARC-AGI-3' 실험으로 입증했다고 했어. AGI가 멀었다는 헤드라인 뒤에는 도구의 부재 문제가 있을 수도 있다는 시각이야.

무슨 일이 있었나

r/singularity에 “LLMs do fine on ARC-AGI-3 if they are allowed to search over game logs” 라는 글이 5월 2일 올라왔어. 직전에 화제가 됐던 ARC-AGI-3 결과 — GPT-5.5 High 0.43%, Anthropic Opus 4.7 0.18% — 가 사실 모델 능력이 부족해서가 아니라 평가 셋업(harness)이 도구 사용을 막아서라는 주장이야. 작성자는 “Hill-climbing ARC-AGI-3” 실험을 인용하면서 게임 로그 검색을 허용하면 결과가 크게 달라진다고 했어.

왜 이런 차이가 나나

ARC-AGI-3는 인터랙티브 환경에서 에이전트가 효율적으로 탐색·적응·행동해야 하는 추론 벤치마크야. 공식 LLM 에이전트는 RESET, ACTION1~6 같은 정해진 액션만 쓸 수 있어. 그런데 일반 LLM이 컨텍스트에 게임 로그(이전 시도의 입출력)를 모아서 패턴을 인식하는 셋업이 가능해지면 얘기가 달라진다는 거지.

원본 셋업: 모델 단독 추론, 도구 없음 → 1% 미만
변경 셋업: 게임 로그 검색 + hill-climbing 탐색 허용 → 본문에서는 “huge difference”라고만 서술 (정확한 수치는 외부 블로그에)
인간 평균: 60%대로 ARC Prize 공식 leaderboard 기준

어떤 의미인가

AI 능력 헤드라인을 액면 그대로 받기 어려운 이유야. “최강 모델이 0.43%“라는 표현은 강렬하지만, 평가가 모델의 능력만 측정하는지, 아니면 모델+도구 조합 능력을 측정하는지에 따라 결론이 갈린다.

물론 ARC-AGI-3 설계자 입장에서는 도구 허용은 본래 의도가 아닐 수 있어. “모델 자체의 일반화 능력”을 보고 싶은 거니까. 하지만 실제 사용 환경에서 LLM은 거의 항상 도구와 결합해서 굴러가. 그러면 “도구 결합 시 능력”이 더 현실적인 수치라는 반론도 충분히 성립해.

요약하면: ARC-AGI-3 점수 자체로 AGI 도달 여부를 판정하기엔 평가 셋업의 가정이 너무 깊어. 발표 점수보다 셋업 정의를 같이 봐야 한다는 신호로 받자.

태그

#arc-agi#benchmark#llm-tools#agi#evaluation

포맷 v2 가이드 news 3.1.2

팩트 체크

통과 · 2026-05-03 KST

검증 생성: AI + 편집 검토 · 2026-05-03 상태: 통과

통과 원문 대조

Reddit 원문 + ARC Prize 공식 문서로 ARC-AGI-3 셋업 확인

ARC-AGI-3 = 인터랙티브 추론 벤치마크: ARC Prize 공식 설명 일치
원본 점수 GPT-5.5 0.43%, Opus 4.7 0.18%: 선행 r/singularity 글에서 인용
harness/도구 부재 문제 제기: 본문 주장 + 댓글 다수 동의

통과 교차 검증 검증 출처 3

ARC Prize 공식 + Kaggle 리더보드 + 외부 리뷰에서 셋업 교차 검증

ARC Prize 공식 문서: LLM agents는 RESET, ACTION1~6 액션 셋만 사용 명시
Hill-climbing은 program search·test-time training에서 표준 기법 (lewish.io ARC-AGI 리뷰)
Kaggle ARC Prize 2026 리더보드에 모델별 점수 공개 — 본문 점수와 일치

통과 수치 검증

벤치마크 점수 수치 확인

GPT-5.5 0.43%: r/singularity 1t1acet 게시물 원본 확인
Opus 4.7 0.18%: 동일 게시물 본문 확인
인간 평균 60%대: ARC Prize 공식 인간 leaderboard 확인

통과 비판 검토

도구 추가시 점수 향상 폭은 본문에 정량 수치 미명시

"huge difference"라는 표현뿐, 정확히 몇 %로 향상되는지 본문에 미공개
Hill-climbing 실험은 외부 블로그 링크에 있다고 함 — 독립 재현 미확인
도구 허용이 ARC-AGI-3 평가의 본래 의도와 맞는지는 논쟁 있음

도구 허용 후 정확한 점수 상승치는 본문에 수치 없이 "huge difference"로만 서술돼
ARC-AGI-3는 본래 도구 없이도 풀어야 하는 일반화 능력 측정용이라는 반론도 있어

출처: r/singularity — LLMs do fine on ARC-AGI-3 if allowed to search game logs , ARC-AGI-3 공식 페이지 (ARC Prize)