한 줄 정의
tok-s, 보통 tok/s라고 쓰는 값은 모델이 1초에 몇 개의 토큰을 생성하는지 보는 속도 지표야. “초당 토큰”이나 “토큰/초”로 읽으면 돼.
어떻게 작동하나
모델이 답변을 만들 때는 이전 토큰을 바탕으로 다음 토큰을 하나씩 고른다. 이때 일정 시간 동안 몇 개를 냈는지 재면 tok/s가 나와. 그래서 tok/s는 추론의 출력 쪽 속도를 보는 숫자에 가깝다.
다만 측정 조건이 아주 중요해. 같은 모델이어도 GPU, 양자화, KV cache dtype, 배치 크기, 런타임, 입력 길이가 바뀌면 tok/s가 바로 달라져. 80 tok/s나 18.5 tok/s 같은 값은 그 조건 묶음 안에서만 읽어야 해.
왜 중요한가
tok/s는 로컬 LLM이나 서빙 엔진을 고를 때 체감 속도와 비용을 빠르게 가늠하게 해 줘. 내부 도구가 답을 너무 늦게 내는지, 같은 GPU에서 다른 런타임이 더 나은지, 튜닝 전후가 실제로 달라졌는지 볼 때 유용해.
하지만 AIKI에서는 개별 숫자마다 별도 위키 페이지를 만들지 않아. 숫자별 페이지를 만들기 시작하면 185 tok/s, 80 tok/s, 40.05 tok/s처럼 끝없이 늘어나고, 독자가 실제로 봐야 할 조건은 흩어진다. tok/s 자체는 이 페이지에서 설명하고, 개별 수치는 해당 모델·프로젝트·뉴스 문맥 안에서만 다루는 편이 맞아.
주의해서 볼 점
첫째, prefill 속도와 decode 속도를 나눠 봐야 해. 긴 입력을 처음 읽는 시간과 답변을 한 토큰씩 내는 시간은 병목이 다를 수 있어.
둘째, 컨텍스트 윈도우와 KV cache 조건을 같이 봐야 해. 긴 문맥에서는 생성 tok/s가 높아도 첫 응답 지연이나 VRAM 사용량이 더 큰 문제가 될 수 있어.
셋째, tok/s 숫자만 보고 모델 품질을 판단하면 안 돼. 속도는 빠른데 답변 품질이 낮거나, 짧은 입력에서는 빠르지만 긴 문서에서는 prefill이 느릴 수 있어.
관련 용어와 비교
Benchmark는 성능을 비교하는 실험 틀이야. tok/s는 그 안에 들어가는 지표 하나야.
Context Window는 한 요청에서 모델이 볼 수 있는 토큰 범위야. tok/s는 그 범위를 처리한 뒤 출력이 얼마나 빨리 나오는지 보는 쪽에 가까워.
KV Cache는 이전 토큰 계산을 다시 쓰기 위해 저장하는 캐시야. 긴 문맥에서는 KV cache가 커져서 tok/s와 메모리 사용량을 같이 흔들 수 있어.