이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

2026-06-16 🔥85점 · 출처 2 원문 OpenTools — GPT-5.5 Beats Claude Fable 5 on Agents' Last Exam

GPT-5.5, 새 ALE 벤치마크에서 24.0%로 1위, Claude Fable 5는 3위

OpenAI GPT-5.5가 UC 버클리 RDI의 새 에이전트 벤치마크 ALE(Agents' Last Exam)에서 24.0% 통과율로 1위에 올랐어. Anthropic Claude Fable 5는 22.0%로 3위. 1위 비결은 OpenAI의 Codex 하니스였는데, 같은 GPT-5.5도 다른 하니스로는 23.0%(2위)라 프레임워크가 순위를 갈랐어. 단, Fable 5는 SWE-Bench Pro 코딩에서 80.3% 대 58.6%로 GPT-5.5를 앞서. 벤치마크마다 강한 모델이 다른 거야.

무슨 일이 일어났나

OpenAI의 GPT-5.5가 UC 버클리 RDI가 새로 낸 에이전트 벤치마크 ALE(Agents’ Last Exam)에서 24.0% 통과율로 1위에 올랐어. Anthropic이 막 내놓은 Claude Fable 5는 22.0%로 3위였고. 코딩 벤치마크에선 Fable 5가 강세라 다들 1위를 예상했는데 뒤집힌 거야. ALE는 좁은 코딩 문제가 아니라 실제 직무 워크플로우를 끝까지 해내는지 보는 벤치마크고, 1,490개 태스크에 55개 직무 하위도메인으로 짜였어.

1위를 가른 건 Codex 하니스였어

순위표를 보면 흥미로운 게 있어. 1·2·4·5위가 전부 같은 GPT-5.5인데, 모델을 감싸는 하니스만 달라.

1위 — Codex (24.0%): OpenAI의 코딩 에이전트 프레임워크. 다단계 도구 호출, 상태 관리, 오류 복구를 묶어서 돌려
2위 — ALE Claw (23.0%): 같은 GPT-5.5인데 하니스가 다르니 1%p 낮아
3위 — Claude Code + Fable 5 (22.0%): 모델이 달라진 유일한 상위권 구성

같은 모델이 하니스에 따라 순위가 갈렸다는 건, 이 점수가 모델 단독 실력이 아니라 모델과 프레임워크를 합친 결과라는 뜻이야.

어떤 의미인가

그러니까 “GPT-5.5가 Fable 5보다 낫다”로 읽으면 곤란해. 벤치마크마다 강한 쪽이 달라. 코딩만 보면 Fable 5가 SWE-Bench Pro에서 80.3%로 GPT-5.5의 58.6%를 두 자릿수 차이로 앞서거든. ALE는 직무 워크플로우라는 다른 축을 잰 거고, 거기선 OpenAI의 Codex 조합이 앞선 거야. 게다가 1위라는 24.0%도 절대 수치는 낮아 — 가장 어려운 티어에선 모든 구성이 0.0%였어. 내가 에이전트를 고른다면 한 벤치마크 1위가 아니라 내가 시킬 작업이 코딩인지 긴 직무 흐름인지부터 보고 판단해도 늦지 않아.

태그

#openai#anthropic#gpt-5-5#claude-fable-5#benchmark#agentic-coding

포맷 v3 가이드 news 3.4.1

팩트 체크

통과 · 2026-06-16 KST

검증 생성: AI + 편집 검토 · 2026-06-16 상태: 통과

통과 원문 대조

통과율·순위·하니스·코딩 벤치마크 수치를 보도와 공식 리더보드에 각각 대조했어.

GPT-5.5 + Codex 24.0% 1위, Claude Fable 5(Claude Code) 22.0% 3위를 OpenTools 보도와 Snorkel 리더보드에서 일치 확인
2위는 같은 GPT-5.5 + ALE Claw 하니스 23.0%로 두 출처에서 일치
Fable 5의 코딩 우위(SWE-Bench Pro 80.3% 대 58.6%)는 OpenTools 보도에서 확인

통과 교차 검증 검증 출처 2

VentureBeat 계열 보도와 공식 ALE 리더보드(Snorkel 호스팅)를 독립적으로 대조했어.

1차 출처 교차검증: 공식 ALE 리더보드(Snorkel AI 호스팅, agents-last-exam.org 연동)에서 Codex(gpt-5-5) 24%·ALE Claw 23%·Claude Code(fable-5) 22% 순위를 직접 확인해 보도 수치와 대조했어
보도 계열(OpenTools·36kr·dataworldbank)은 모두 VentureBeat 6월 보도로 수렴하므로 한 갈래로 보고, 공식 리더보드를 독립 갈래로 따로 잡았어
ALE 개발 주체가 UC Berkeley RDI이고 1,490개 태스크·55개 직무 하위도메인이라는 점이 보도와 공식 자료에서 같은지 봤어

통과 수치 검증

본문·제목·요약의 모든 수치를 공식 리더보드와 보도 기준으로 확인했어.

GPT-5.5 + Codex 24.0% (Snorkel 리더보드 1위)
Claude Fable 5 22.0% (Snorkel 리더보드 3위, Claude Code 하니스)
GPT-5.5 + ALE Claw 23.0% (Snorkel 리더보드 2위)
SWE-Bench Pro 코딩: Fable 5 80.3% 대 GPT-5.5 58.6% (OpenTools 보도)
evidence: https://snorkel.ai/leaderboard/agents-last-exam/ 리더보드 3위가 Claude Code 하니스에 Claude Fable 5를 얹은 22.0% 구성이라는 점을 직접 확인했어
ALE 태스크 1,490개, 직무 하위도메인 55개 (보도·공식 자료 일치)
가장 어려운 티어(hard) 통과율 0.0% — 1위 구성 포함 모든 구성이 0%로, 24.0% 1위도 절대 수치는 낮다는 맥락 (OpenTools 보도 기준)
Causal evidence: 같은 GPT-5.5가 Codex 하니스로 24.0%(1위)·ALE Claw로 23.0%(2위)로 갈린 건 하니스가 순위를 움직였다는 근거 — https://snorkel.ai/leaderboard/agents-last-exam/
Mechanism evidence: Codex 하니스가 다단계 도구 호출·상태 관리·오류 복구를 묶어 에이전트 워크플로우를 돌리는 구조라 같은 모델에서도 통과율이 달라짐 — https://opentools.ai/news/gpt-55-beats-claude-fable-5-agents-last-exam-benchmark-2026

통과 비판 검토

단일 벤치마크·하니스 민감도·체리피킹 위험을 본문에 반영했는지 검토했어.

단일 벤치마크 결과 — ALE 1개 점수로 모델 전체 우열을 말할 수 없어서 본문에서 '한 축'으로만 한정했어
벤더 프레임워크 민감도 — 1·2·4·5위가 전부 같은 GPT-5.5에 하니스만 다른 구성이라 순위가 하니스에 크게 흔들린다는 점을 명시했어
Fable 5가 다른 벤치마크에선 앞섬 — SWE-Bench Pro 코딩 80.3% 대 58.6% 두 자릿수 우위를 본문에 같이 넣어 '전체 우위' 과장을 막았어
체리피킹 위험 — 좋은 숫자만 뽑지 않도록 1위 24.0%도 하드 티어에선 0.0%라는 낮은 천장을 같이 적었어

'GPT-5.5가 전반적으로 더 낫다'는 과장이 안 되게 코딩 벤치마크 우위를 본문에 병기 완료
공식 1차 리더보드 미확보 시 claim 하향 예정이었으나, Snorkel 호스팅 공식 리더보드 확인으로 sourceCount 2 유지

출처: OpenTools — GPT-5.5 Beats Claude Fable 5 on Agents' Last Exam (VentureBeat 보도 기반) , Snorkel AI — Agents' Last Exam 공식 리더보드 (ALE 공동 후원) , Agents' Last Exam — 공식 리더보드 (UC Berkeley RDI)