무슨 일이 일어났나
OpenAI의 GPT-5.5가 UC 버클리 RDI가 새로 낸 에이전트 벤치마크 ALE(Agents’ Last Exam)에서 24.0% 통과율로 1위에 올랐어. Anthropic이 막 내놓은 Claude Fable 5는 22.0%로 3위였고. 코딩 벤치마크에선 Fable 5가 강세라 다들 1위를 예상했는데 뒤집힌 거야. ALE는 좁은 코딩 문제가 아니라 실제 직무 워크플로우를 끝까지 해내는지 보는 벤치마크고, 1,490개 태스크에 55개 직무 하위도메인으로 짜였어.
1위를 가른 건 Codex 하니스였어
순위표를 보면 흥미로운 게 있어. 1·2·4·5위가 전부 같은 GPT-5.5인데, 모델을 감싸는 하니스만 달라.
- 1위 — Codex (24.0%): OpenAI의 코딩 에이전트 프레임워크. 다단계 도구 호출, 상태 관리, 오류 복구를 묶어서 돌려
- 2위 — ALE Claw (23.0%): 같은 GPT-5.5인데 하니스가 다르니 1%p 낮아
- 3위 — Claude Code + Fable 5 (22.0%): 모델이 달라진 유일한 상위권 구성
같은 모델이 하니스에 따라 순위가 갈렸다는 건, 이 점수가 모델 단독 실력이 아니라 모델과 프레임워크를 합친 결과라는 뜻이야.
어떤 의미인가
그러니까 “GPT-5.5가 Fable 5보다 낫다”로 읽으면 곤란해. 벤치마크마다 강한 쪽이 달라. 코딩만 보면 Fable 5가 SWE-Bench Pro에서 80.3%로 GPT-5.5의 58.6%를 두 자릿수 차이로 앞서거든. ALE는 직무 워크플로우라는 다른 축을 잰 거고, 거기선 OpenAI의 Codex 조합이 앞선 거야. 게다가 1위라는 24.0%도 절대 수치는 낮아 — 가장 어려운 티어에선 모든 구성이 0.0%였어. 내가 에이전트를 고른다면 한 벤치마크 1위가 아니라 내가 시킬 작업이 코딩인지 긴 직무 흐름인지부터 보고 판단해도 늦지 않아.