한 줄 정의

Terminal-Bench는 AI 모델 자체보다 에이전트명령줄 인터페이스에서 일을 끝내는가를 보는 벤치마크야. Terminal Bench라고 띄어 써도 같은 평가를 가리키는 경우가 많아. 공식 벤치마크 페이지는 2.0을 여러 실무 영역이 섞인 89개 과제로 설명해. 채팅창에서 코드 한 조각을 잘 쓰는지보다, 파일을 읽고 명령을 돌리고 결과를 확인해서 작업을 마무리하는지를 보는 공개 평가 체계야.

어떻게 작동하나

2.0의 각 과제는 보통 네 부분으로 묶여 있어.

  • 자연어 지시문
  • Docker로 고정한 실행 환경
  • 통과 여부를 확인하는 테스트 스크립트
  • 사람이 검증한 참고 해법

모델은 Claude CodeCodex CLI 같은 에이전트 도구를 통해 이 환경에 들어가고, 파일을 열고 수정하고 명령을 실행한 뒤 테스트를 통과해야 점수를 받아. 논문 초록도 89개 터미널 기반 과제를 강조해. 예를 들어 실패한 테스트를 보고 파일을 고친 뒤 다시 명령을 돌리는 흐름까지 끝내야 하므로, 단순 코드 완성 점수와는 결이 달라. Epoch AI 방법론은 리더보드를 모델 단독이 아니라 모델-에이전트 조합의 성공률 평균으로 설명해.

왜 중요한가

벤치마크가 중요한 이유는 코드를 잘 쓰는 모델과 터미널 안에서 끝까지 일하는 에이전트형 코딩 도구를 구분해 주기 때문이야. HumanEval 같은 단일 함수 생성 평가SWE-bench처럼 저장소 이슈 해결 평가와 달리, 이 평가는 명령 실행, 상태 추적, 오류 복구, 긴 단계 계획을 한 묶음으로 봐.

그래서 AnthropicClaude Opus 4.6 소개 글이나 Qwen3.6-35B-A3B 모델 카드Terminal-Bench 2.0 점수를 따로 꺼내. 다만 이런 공개 숫자는 네 서비스의 실제 품질을 보장하는 Eval(평가)가 아니라, 터미널 작업에 가까운 공개 비교 지표로 먼저 읽어야 해. 논문 초록 기준으로도 공개 시점의 상위 모델과 에이전트가 65%를 넘기지 못해서, 겉보기보다 아직 어려운 평가라는 점이 드러나.

주의해서 볼 점

점수를 볼 때는 숫자보다 먼저 조건을 확인해야 해.

  • 어떤 에이전트 도구를 붙였는지
  • CPU, 메모리, 제한 시간 같은 자원 배분이 어땠는지
  • 추론 강도를 모델, 도구, 평가자가 각각 어떻게 조절했는지
  • Terminal-Bench 1.0인지 2.0인지
  • 벤치마크 데이터가 학습 말뭉치에 섞였을 가능성은 없는지

평가는 터미널 작업 중심이라 GUI 조작이나 일반 대화 품질까지 대신 말해주지 않아. 1.0은 80개 과제고 2.0은 89개 과제라서 같은 점수도 의미가 달라져. 실무에 쓰려면 공개 리더보드 숫자만 보지 말고, 내부 저장소나 사내 작업을 비슷한 하네스와 테스트 스크립트로 다시 재는 과정이 따로 필요해.