한 줄 정의

Terminal-Bench이라고도 쓰는 Terminal-Bench 2.0은 모델명이 아니라, 에이전트가 터미널에서 작업을 끝까지 끝내는지 재는 Terminal-Bench의 2.0 평가 버전이야. 공식 사이트의 과제 갤러리는 이 버전을 89개 터미널 작업 과제로 설명해. AI가 문장을 잘 쓰는지가 아니라, 에이전트형 코딩 도구가 명령 실행 → 로그 확인 → 테스트 통과 루프를 완주하는지를 보는 벤치마크라고 생각하면 돼.

그래서 AnthropicClaude Opus 4.6 발표Qwen3.6-35B-A3B 모델 카드가 같은 평가 이름을 쓰더라도, 그 숫자는 출처와 실행 조건을 나눠 읽어야 해. 모델 발표에 붙은 점수와 공식 리더보드의 모델-에이전트 조합 점수를 같은 줄에 놓으면 판단이 흐려져.

어떻게 작동하나

흐름은 task, 하네스, 에이전트 실행, 검증, accuracy 산출로 나눠 보면 편해.

  • task: 89개 과제는 파일 수정, 명령 실행, 로그 확인, 데이터 처리처럼 터미널 안에서 끝내야 하는 작업 단위야.
  • harness: sandboxed terminal harness가 작업 디렉터리, 의존성, 실행 제한, 검증 스크립트를 준비해.
  • agent/model run: Claude Code, Codex, Terminus 같은 에이전트 도구가 모델을 호출해 파일을 읽고 명령을 실행해.
  • verifier/test: 과제가 요구한 테스트나 verifier가 최종 상태를 확인해. 중간에 그럴듯한 답을 써도 테스트를 통과하지 못하면 해결로 잡히지 않아.
  • accuracy: 통과한 task 비율이 점수로 집계돼. 그래서 리더보드의 accuracy는 모델 단독 능력보다 모델, 에이전트, 하네스, 실행 조건이 합쳐진 결과에 가까워.

이 지표로 무엇을 판단하나

에이전트가 터미널 작업을 어느 정도까지 버틸 수 있는지 보려면 아래처럼 사용하면 돼.

  • 공식 리더보드에서는 agent, model, date, accuracy를 한 묶음으로 읽어.
  • Claude CodeCodex 같은 에이전트 도구를 고정하면 모델 차이를 더 깔끔하게 비교할 수 있어.
  • Qwen 계열의 공개 모델 후보는 오픈 웨이트, 실제로 호출하는 모델 API, 실행 인프라 비용을 분리해 판단할 때 사용해.
  • 실무 예시: npm installnpm test가 실패하면 실패 로그 반영 변경을 넣고, 다시 테스트를 돌려 통과까지 가는지 확인해.

이걸 보면 점수표는 순위표라기보다 운영성 판단 도구에 가까워.

왜 중요한가

긴 리팩터링처럼 에이전트가 지시사항을 끝까지 밀어야 하는 작업에서 이 지표가 쓸모 있어.
문장을 자연스럽게 쓰는지보다, 실패했을 때 바로 멈추지 않고 다시 시도하느냐가 팀 시간표를 흔들거든.

Qwen3.6-35B-A3B 모델 카드의 공개 비교표에서는 해당 행에 Qwen3.6-35B-A3B가 51.5, Gemma 4-31B가 42.9로 적혀 있어. 이 값은 Qwen 공개표의 Harbor/Terminus-2 harness, 3h timeout, 32 CPU/48 GB RAM, temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, 256K context, 평균 5회 실행 조건으로 제한해서 읽어야 해. 공식 2.0 리더보드는 agent, model, date, accuracy 단위로 별도 집계되므로, 이 두 숫자를 공식 리더보드의 단일 모델 점수처럼 쓰면 안 돼.

주의해서 볼 점

  • 에이전트 계층: Claude Code, Codex가 같은 점수로 보이진 않아.
  • 실행 제약: 제한 시간, 메모리, 로그 보존 정책이 점수 재현성에 직결돼.
  • 과제 종류: 명령줄 패치 과제인지, 데이터 처리 과제인지에 따라 실패 양상이 달라져.
  • 채팅 품질이나 검색 품질을 보려는 팀이라면 이 벤치마크를 1순위로 둘 필요는 없어.
  • 비용 계산: accuracy에는 모델 호출비와 인프라 비용이 들어 있지 않아.

비교해서 볼 기준

SWE-bench는 코드베이스 이슈를 해결하는 능력을 더 직접적으로 보고, 이 2.0 평가는 터미널 안에서 명령을 실행하고 검증하는 흐름을 더 강하게 봐. 둘 다 에이전트형 코딩 평가에 쓰이지만, 같은 점수표처럼 섞으면 판단이 흐려져.

A3B오픈 웨이트 같은 모델 배포 용어는 Qwen·Gemma 4 후보를 해석할 때 필요하고, 벤치마크 자체의 정체성을 설명하는 용어는 아니야. 그래서 점수표를 볼 때는 Terminal-Bench 버전, 벤치마크 조건, 모델 배포 조건, 실제 운영 비용을 따로 놓고 비교하는 편이 안전해.