무슨 일이 일어났나

OpenAIGPT-5.5가 UC 버클리 RDI가 새로 낸 에이전트 벤치마크 ALE(Agents’ Last Exam)에서 24.0% 통과율로 1위에 올랐어. Anthropic이 막 내놓은 Claude Fable 5는 22.0%로 3위였고. 코딩 벤치마크에선 Fable 5가 강세라 다들 1위를 예상했는데 뒤집힌 거야. ALE는 좁은 코딩 문제가 아니라 실제 직무 워크플로우를 끝까지 해내는지 보는 벤치마크고, 1,490개 태스크에 55개 직무 하위도메인으로 짜였어.

1위를 가른 건 Codex 하니스였어

순위표를 보면 흥미로운 게 있어. 1·2·4·5위가 전부 같은 GPT-5.5인데, 모델을 감싸는 하니스만 달라.

  • 1위 — Codex (24.0%): OpenAI코딩 에이전트 프레임워크. 다단계 도구 호출, 상태 관리, 오류 복구를 묶어서 돌려
  • 2위 — ALE Claw (23.0%): 같은 GPT-5.5인데 하니스가 다르니 1%p 낮아
  • 3위 — Claude Code + Fable 5 (22.0%): 모델이 달라진 유일한 상위권 구성

같은 모델이 하니스에 따라 순위가 갈렸다는 건, 이 점수가 모델 단독 실력이 아니라 모델과 프레임워크를 합친 결과라는 뜻이야.

어떤 의미인가

그러니까 “GPT-5.5가 Fable 5보다 낫다”로 읽으면 곤란해. 벤치마크마다 강한 쪽이 달라. 코딩만 보면 Fable 5가 SWE-Bench Pro에서 80.3%GPT-5.558.6%를 두 자릿수 차이로 앞서거든. ALE는 직무 워크플로우라는 다른 축을 잰 거고, 거기선 OpenAICodex 조합이 앞선 거야. 게다가 1위라는 24.0%도 절대 수치는 낮아 — 가장 어려운 티어에선 모든 구성이 0.0%였어. 내가 에이전트를 고른다면 한 벤치마크 1위가 아니라 내가 시킬 작업이 코딩인지 긴 직무 흐름인지부터 보고 판단해도 늦지 않아.