이 용어는 어디까지 신뢰할 수 있나요?

Terminal-Bench이라고도 쓰는 Terminal-Bench 2.0은 모델명이 아니라, 에이전트가 터미널에서 작업을 끝까지 끝내는지 재는 Terminal-Bench의 2.0 평가 버전이야. 공식 사이트의 과제 갤러리는 이 버전을 89개 터미널 작업 과제로 설명해. AI가 문장을 잘 쓰는지가 아니라, 에이전트형 코딩 도구가 명령 실행 → 로그 확인 → 테스트 통과 루프를 완주하는지를 보는 벤치마크라고 생각하면 돼.

그래서 Anthropic의 Claude Opus 4.6 발표와 Qwen3.6-35B-A3B 모델 카드가 같은 평가 이름을 쓰더라도, 그 숫자는 출처와 실행 조건을 나눠 읽어야 해. 모델 발표에 붙은 점수와 공식 리더보드의 모델-에이전트 조합 점수를 같은 줄에 놓으면 판단이 흐려져.

어떻게 작동하나

흐름은 task, 하네스, 에이전트 실행, 검증, accuracy 산출로 나눠 보면 편해.

task: 89개 과제는 파일 수정, 명령 실행, 로그 확인, 데이터 처리처럼 터미널 안에서 끝내야 하는 작업 단위야.
harness: sandboxed terminal harness가 작업 디렉터리, 의존성, 실행 제한, 검증 스크립트를 준비해.
agent/model run: Claude Code, Codex, Terminus 같은 에이전트 도구가 모델을 호출해 파일을 읽고 명령을 실행해.
verifier/test: 과제가 요구한 테스트나 verifier가 최종 상태를 확인해. 중간에 그럴듯한 답을 써도 테스트를 통과하지 못하면 해결로 잡히지 않아.
accuracy: 통과한 task 비율이 점수로 집계돼. 그래서 리더보드의 accuracy는 모델 단독 능력보다 모델, 에이전트, 하네스, 실행 조건이 합쳐진 결과에 가까워.

이 지표로 무엇을 판단하나

에이전트가 터미널 작업을 어느 정도까지 버틸 수 있는지 보려면 아래처럼 사용하면 돼.

공식 리더보드에서는 agent, model, date, accuracy를 한 묶음으로 읽어.
Claude Code나 Codex 같은 에이전트 도구를 고정하면 모델 차이를 더 깔끔하게 비교할 수 있어.
Qwen 계열의 공개 모델 후보는 오픈 웨이트, 실제로 호출하는 모델 API, 실행 인프라 비용을 분리해 판단할 때 사용해.
실무 예시: npm install 후 npm test가 실패하면 실패 로그 반영 변경을 넣고, 다시 테스트를 돌려 통과까지 가는지 확인해.

이걸 보면 점수표는 순위표라기보다 운영성 판단 도구에 가까워.

왜 중요한가

긴 리팩터링처럼 에이전트가 지시사항을 끝까지 밀어야 하는 작업에서 이 지표가 쓸모 있어.
문장을 자연스럽게 쓰는지보다, 실패했을 때 바로 멈추지 않고 다시 시도하느냐가 팀 시간표를 흔들거든.

Qwen3.6-35B-A3B 모델 카드의 공개 비교표에서는 해당 행에 Qwen3.6-35B-A3B가 51.5, Gemma 4-31B가 42.9로 적혀 있어. 이 값은 Qwen 공개표의 Harbor/Terminus-2 harness, 3h timeout, 32 CPU/48 GB RAM, temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, 256K context, 평균 5회 실행 조건으로 제한해서 읽어야 해. 공식 2.0 리더보드는 agent, model, date, accuracy 단위로 별도 집계되므로, 이 두 숫자를 공식 리더보드의 단일 모델 점수처럼 쓰면 안 돼.

주의해서 볼 점

에이전트 계층: Claude Code, Codex가 같은 점수로 보이진 않아.
실행 제약: 제한 시간, 메모리, 로그 보존 정책이 점수 재현성에 직결돼.
과제 종류: 명령줄 패치 과제인지, 데이터 처리 과제인지에 따라 실패 양상이 달라져.
채팅 품질이나 검색 품질을 보려는 팀이라면 이 벤치마크를 1순위로 둘 필요는 없어.
비용 계산: accuracy에는 모델 호출비와 인프라 비용이 들어 있지 않아.

비교해서 볼 기준

SWE-bench는 코드베이스 이슈를 해결하는 능력을 더 직접적으로 보고, 이 2.0 평가는 터미널 안에서 명령을 실행하고 검증하는 흐름을 더 강하게 봐. 둘 다 에이전트형 코딩 평가에 쓰이지만, 같은 점수표처럼 섞으면 판단이 흐려져.

A3B나 오픈 웨이트 같은 모델 배포 용어는 Qwen·Gemma 4 후보를 해석할 때 필요하고, 벤치마크 자체의 정체성을 설명하는 용어는 아니야. 그래서 점수표를 볼 때는 Terminal-Bench 버전, 벤치마크 조건, 모델 배포 조건, 실제 운영 비용을 따로 놓고 비교하는 편이 안전해.

이 항목을 참조하는 위키

포맷 v2 가이드 wiki 3.1.2

팩트 체크

통과 · 2026-05-01 KST

검증 생성: AI + 편집 검토 · 2026-05-01 상태: 통과

통과 원문 대조 검증 출처 7

공식 자료와 논문은 2.0을 모델 버전이 아니라 터미널 환경의 에이전트 평가 체계로 설명해.

독자 문제 대조: 모델명, 에이전트 도구명, 벤치마크 버전명을 섞어 읽으면 점수 해석이 어긋나.
tbench.ai 공식 첫 화면은 Terminal-Bench를 터미널 환경용 AI 에이전트 벤치마크로 소개하고, 버전별 리더보드를 제공해.
2.0 과제 갤러리는 89개 과제를 표시하고, 각 과제가 터미널 세션에서 수행되는 평가 단위임을 보여 줘.
arXiv 논문 초록은 89개 어려운 벤치마크 과제와 환경, 해법, 검증 테스트를 함께 설명해.

통과 교차 검증 검증 출처 7

리더보드, 방법론 문서, 모델 발표 자료의 역할을 분리해 점수 해석 기준을 확인했어.

비교 기준: 같은 정확도라도 에이전트, 모델, 날짜, 실행 하네스가 다르면 같은 수치로 묶을 수 없어.
공식 리더보드는 에이전트, 모델, 날짜, 에이전트 기관, 모델 기관, 정확도 열로 결과를 보여 줘.
Epoch AI 방법론은 모델이 Claude Code, Codex CLI, Terminus, Goose 같은 에이전트 도구와 짝을 이룬다고 설명해.
Anthropic의 Claude Opus 4.6 글은 터미널 벤치 점수를 모델 발표 맥락에서 인용하므로, 공식 리더보드와 출처 성격이 달라.
Qwen 모델 카드는 자체 비교표에 공개 수치를 싣기 때문에, 공식 리더보드의 갱신형 점수와 조건을 따로 읽어야 해.

통과 수치 검증 검증 출처 7

89개 task, 51.5, 42.9, 3h timeout, 32 CPU/48 GB RAM, 평균 5회 실행 조건을 출처별로 확인했어.

공식 2.0 과제 갤러리는 이 버전을 89개 과제로 표시해.
Qwen3.6-35B-A3B 모델 카드의 공개 비교표에는 Qwen3.6-35B-A3B 51.5와 Gemma4-31B 42.9가 같은 행의 비교 수치로 제시돼.
Qwen 조건 주석은 Harbor/Terminus-2 하네스, 제한 시간 3시간, 32 CPU/48 GB RAM, temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, 256K context를 함께 적어.
같은 주석은 평균 5회 실행 조건을 명시하므로, 한 번 실행한 재현 점수로 읽으면 안 돼.

통과 비판 검토 검증 출처 7

벤더 공개 점수, 공식 리더보드 점수, 실제 운영 판단을 섞을 때 생기는 오해를 점검했어.

벤치마크 버전을 모델 버전처럼 분류하면 Claude나 Qwen 계열 모델명으로 오해할 수 있어.
같은 모델도 에이전트 도구, 제한 시간, CPU·메모리, 재시도 정책이 바뀌면 정확도가 달라질 수 있어.
Qwen 공개표 숫자는 후보군 필터로는 유용하지만, 채택 기준은 에이전트/모델/날짜/정확도와 실행 제약을 함께 봐야 해.
가격 판단은 점수표가 아니라 연결할 모델 API 호출 비용과 실행 인프라 비용으로 계산해야 해.
Anthropic과 Qwen 출처는 모델 발표·모델 카드 역할이고, 정의와 방법론은 공식 사이트·Epoch AI·논문 출처가 더 직접적이야.

출처: Terminal-Bench 공식 사이트 , 2.0 과제 목록 , 2.0 leaderboard , Terminal-Bench 논문 , Epoch AI - 2.0 방법론 , Anthropic News - Claude Opus 4.6 , Qwen3.6-35B-A3B 모델 카드

Terminal-Bench 2.0(터미널 벤치 2.0)

전체 AI 기술 맵에서의 위치

한 줄 정의