한 줄 정의
Token은 모델이 텍스트를 받아들일 때 바로 세는 처리 단위야. 사람이 보는 글자 수나 단어 수와 같지 않을 수 있고, 한 단어가 여러 조각으로 나뉘거나 짧은 묶음이 하나로 잡히기도 해.
어떻게 작동하나
문장이 들어오면 먼저 tokenizer가 문자열을 여러 조각으로 나눠. 그다음 각 조각은 숫자 ID로 바뀌고, 모델은 그 숫자열을 바탕으로 다음 내용을 계산해. 입력 프롬프트와 이전 대화와 시스템 지시문과 출력까지 모두 같은 단위로 합산되기 때문에 토큰 수가 늘면 한도와 비용도 같이 움직여.
왜 중요한가
긴 프롬프트가 잘리거나 답변이 중간에서 끊기거나 예상보다 요금이 커지는 이유를 설명할 때 토큰 개념이 바로 쓰여. 기사에서도 컨텍스트 길이는 몇 토큰을 한 번에 유지하느냐를 뜻하고 최대 출력은 답변에 남겨 둔 토큰 상한을 뜻하니까, 숫자를 읽을 때 글자 수 감각으로 보면 자꾸 틀리게 돼.
주의해서 볼 점
토큰을 단어와 같은 말로 받아들이면 금방 헷갈려. 같은 문장도 모델마다 tokenizer가 달라서 토큰 수와 비용 추정이 달라질 수 있어. 그래서 큰 숫자만 보고 우열을 정하지 말고 어떤 모델 기준인지와 입력 한도와 출력 한도가 분리돼 있는지까지 같이 봐야 해.
관련 용어
- LLM (대규모 언어 모델): LLM은 토큰을 입력으로 받아 다음 토큰을 예측하는 본체야. Token이 계산 재료라면 LLM은 그 재료를 이어 붙여 답을 만드는 모델이야.
- Long Context (긴 문맥): Long Context는 많은 토큰을 한 번에 유지하는 능력이야. Token이 길이를 세는 단위라면 Long Context는 그 단위를 얼마나 넓게 담을 수 있는지에 관한 성능이야.
- Memory (메모리): Memory는 현재 입력창 밖의 정보를 다음 상호작용에도 이어 쓰게 하는 장치에 가까워. Token은 한 번의 처리 안에서 쓰이는 길이 기준이고 Memory는 그 바깥 저장과 재호출에 더 가까워.