이 용어는 어디까지 신뢰할 수 있나요?

Terminal-Bench는 AI 모델 자체보다 에이전트가 명령줄 인터페이스에서 일을 끝내는가를 보는 벤치마크야. Terminal Bench라고 띄어 써도 같은 평가를 가리키는 경우가 많아. 공식 벤치마크 페이지는 2.0을 여러 실무 영역이 섞인 89개 과제로 설명해. 채팅창에서 코드 한 조각을 잘 쓰는지보다, 파일을 읽고 명령을 돌리고 결과를 확인해서 작업을 마무리하는지를 보는 공개 평가 체계야.

어떻게 작동하나

2.0의 각 과제는 보통 네 부분으로 묶여 있어.

자연어 지시문
Docker로 고정한 실행 환경
통과 여부를 확인하는 테스트 스크립트
사람이 검증한 참고 해법

모델은 Claude Code나 Codex CLI 같은 에이전트 도구를 통해 이 환경에 들어가고, 파일을 열고 수정하고 명령을 실행한 뒤 테스트를 통과해야 점수를 받아. 논문 초록도 89개 터미널 기반 과제를 강조해. 예를 들어 실패한 테스트를 보고 파일을 고친 뒤 다시 명령을 돌리는 흐름까지 끝내야 하므로, 단순 코드 완성 점수와는 결이 달라. Epoch AI 방법론은 리더보드를 모델 단독이 아니라 모델-에이전트 조합의 성공률 평균으로 설명해.

왜 중요한가

이 벤치마크가 중요한 이유는 코드를 잘 쓰는 모델과 터미널 안에서 끝까지 일하는 에이전트형 코딩 도구를 구분해 주기 때문이야. HumanEval 같은 단일 함수 생성 평가나 SWE-bench처럼 저장소 이슈 해결 평가와 달리, 이 평가는 명령 실행, 상태 추적, 오류 복구, 긴 단계 계획을 한 묶음으로 봐.

그래서 Anthropic의 Claude Opus 4.6 소개 글이나 Qwen3.6-35B-A3B 모델 카드가 Terminal-Bench 2.0 점수를 따로 꺼내. 다만 이런 공개 숫자는 네 서비스의 실제 품질을 보장하는 Eval(평가)가 아니라, 터미널 작업에 가까운 공개 비교 지표로 먼저 읽어야 해. 논문 초록 기준으로도 공개 시점의 상위 모델과 에이전트가 65%를 넘기지 못해서, 겉보기보다 아직 어려운 평가라는 점이 드러나.

주의해서 볼 점

점수를 볼 때는 숫자보다 먼저 조건을 확인해야 해.

어떤 에이전트 도구를 붙였는지
CPU, 메모리, 제한 시간 같은 자원 배분이 어땠는지
추론 강도를 모델, 도구, 평가자가 각각 어떻게 조절했는지
Terminal-Bench 1.0인지 2.0인지
벤치마크 데이터가 학습 말뭉치에 섞였을 가능성은 없는지

이 평가는 터미널 작업 중심이라 GUI 조작이나 일반 대화 품질까지 대신 말해주지 않아. 1.0은 80개 과제고 2.0은 89개 과제라서 같은 점수도 의미가 달라져. 실무에 쓰려면 공개 리더보드 숫자만 보지 말고, 내부 저장소나 사내 작업을 비슷한 하네스와 테스트 스크립트로 다시 재는 과정이 따로 필요해.

이 항목을 참조하는 위키

📰 관련 기사 (1)

Ai2, 27B 터미널 에이전트 Tmax를 데이터·코드째 공개했어2026-06-24🔥88점 · 출처 3

포맷 v2 가이드 wiki 3.1.2

팩트 체크

통과 · 2026-04-30 KST

검증 생성: AI + 편집 검토 · 2026-04-30 상태: 통과

통과 원문 대조 검증 출처 7

공식 논문과 사이트 정의를 먼저 대조해서, 이 항목을 모델 이름이 아니라 실제 터미널 작업 벤치마크로 정리했어.

독자 문제 대조: 첫 섹션에서 터미널 안에서 일을 끝내는지 보는 평가라고 바로 정의해서, 처음 듣는 사람도 점수표 이름으로 오해하지 않게 했어.
Anthropic의 2026년 2월 5일 Claude Opus 4.6 소개 글은 2.0을 에이전트 코딩 평가로 가리켜, 이 용어가 모델명이 아니라 평가 지표라는 점과 맞아.
Qwen3.6-35B-A3B 모델 카드에는 Terminal-Bench 2.0 51.5와 Gemma4-31B 42.9가 같은 표에 있고, OfficeChai 기사는 이 표를 전한 2차 기사로만 봤어.
공식 tbench 사이트와 GitHub README는 task dataset과 execution harness를 함께 갖춘 벤치마크라고 설명하므로, 최종 정의는 이 쪽에 맞췄어.

입력 소스 다수는 점수 인용 사례라서, 정의와 구조는 공식 논문과 사이트 기준으로 다시 세웠어.

통과 교차 검증 검증 출처 7

공식 사이트, arXiv 초록, GitHub README, Epoch AI 설명을 맞춰서 과제 구조와 점수 방식을 확인했어.

비교 기준: tbench.ai의 소개 페이지, arXiv 2601.11868 초록, GitHub README, Epoch AI methodology 페이지를 나눠 보고 구조와 과제 수, 점수 해석이 서로 맞는지 확인했어.
tbench.ai와 arXiv 초록은 둘 다 2.0을 89개 터미널 과제로 설명해.
GitHub README는 각 과제가 지시문, 테스트 스크립트, 참고 해법을 가진다고 적고, 데이터셋과 실행 하네스 두 부분으로 나눠.
Epoch AI는 리더보드가 모델 단독이 아니라 모델-에이전트 조합 기준이며, 도구가 추론 강도를 조절할 수 있다고 설명해.

설명용 보조 소스는 있었지만 정의와 숫자는 공식 소스 둘 이상으로만 고정했어.

통과 수치 검증 검증 출처 7

2.0의 89개 과제, 1.0의 80개 과제, 2026년 1월 17일 논문 제출일, 당시 65% 미만이라는 숫자만 남겼어.

arXiv 기록상 논문 제출일은 2026년 1월 17일이고, 초록은 2.0을 89개 과제로 설명해.
공식 tbench 사이트는 1.0을 80개 과제, 2.0을 89개 과제로 소개해.
arXiv 초록은 논문 공개 시점의 frontier models and agents score less than 65%라는 문장을 명시해.
Qwen3.6-35B-A3B 모델 카드의 51.5 대 42.9 수치는 Qwen 쪽 모델 카드 표에 있는 자체 보고 수치이고, OfficeChai는 이를 전한 2차 기사라서 본문 핵심 정의의 근거로 쓰지 않았어.

라이브 리더보드 상위 점수는 계속 바뀌어서, 날짜가 고정된 논문·공식 버전 숫자만 본문 핵심 근거로 남겼어.

통과 비판 검토 검증 출처 7

리더보드 숫자를 모델 본체 성능처럼 읽는 오해, 버전 혼동, 학습 오염 위험을 따로 점검했어.

같은 모델도 에이전트 도구와 리소스 배분에 따라 점수가 달라질 수 있어서, 모델 자체가 몇 점이라고 단정하지 않았어.
터미널 중심 평가라 GUI 작업이나 일반 대화 품질까지 대신 설명하지 않는다고 적어 범위를 좁혔어.
공식 사이트가 벤치마크 데이터가 학습 말뭉치에 들어가면 안 된다고 경고하므로, 점수는 데이터 오염 여부와 함께 봐야 한다는 맥락을 남겼어.
1.0 80개 과제와 2.0 89개 과제를 섞으면 같은 점수도 의미가 달라져서, 버전 표기를 본문과 팩트체크에 같이 넣었어.
Qwen 관련 개별 점수는 공식 모델 카드와 2차 기사 성격을 나눠 봤고, 독립 리더보드 점수처럼 단정하지 않았어.

숫자만 보면 최신 모델 광고처럼 읽히기 쉬워서, 이 페이지는 사용 장면과 한계를 먼저 붙였어.
실서비스 판단은 내부 저장소나 사내 작업을 비슷한 하네스로 다시 재는 과정이 따로 필요해.

출처: Terminal-Bench — Benchmarks , Terminal-Bench 2.0 paper , Terminal-Bench GitHub README , Epoch AI — Terminal-Bench 2.0 methodology , Anthropic News — Claude Opus 4.6 , Qwen3.6-35B-A3B model card , OfficeChai — Qwen3.6-35B-A3B benchmarks

Terminal-Bench (터미널 벤치)

전체 AI 기술 맵에서의 위치

한 줄 정의

어떻게 작동하나

왜 중요한가

주의해서 볼 점

관련 용어

이 항목을 참조하는 위키

📰 관련 기사 (1)