한 줄 정의
Tokenizer는 사람이 읽는 문장을 모델이 다루는 토큰 묶음으로 바꾸는 규칙과 도구야. 모델은 문장을 통째로 받는 게 아니라 tokenizer가 잘게 나눈 조각과 그 조각의 숫자 표현을 입력으로 받아.
어떻게 작동하나
텍스트가 들어오면 tokenizer가 자주 함께 나타나는 글자 조합, 공백, 기호 같은 기준으로 문자열을 쪼개서 토큰 시퀀스를 만들어. 그다음 각 토큰이 숫자 ID로 바뀌고, 모델은 그 숫자열을 바탕으로 길이 계산과 다음 토큰 예측을 진행해.
왜 중요한가
같은 프롬프트라도 tokenizer가 다르면 토큰 수가 달라져서 비용과 컨텍스트 소모 속도가 같이 바뀌어. 그래서 기사나 문서에서 토큰 한도 얘기가 나오면 모델 이름만 볼 게 아니라 어떤 tokenizer를 쓰는지도 같이 봐야 감이 맞아.
주의해서 볼 점
Tokenizer는 모델 자체가 아니고 모델이 텍스트를 읽는 방식의 일부야. tokenizer가 효율적이라고 해서 모델 답변 품질까지 자동으로 좋아진다고 결론 내리면 과하고, 반대로 모델 이름이 비슷하다고 tokenizer까지 같다고 봐도 틀릴 수 있어.
관련 용어
- context-window: context window는 몇 토큰까지 한 번에 담을 수 있는지의 한도야. tokenizer를 알아야 실제로 문장이 얼마나 빨리 창을 채우는지 감이 와.
- token: token은 tokenizer가 만들어 내는 기본 단위야. 둘을 떼어 읽으면 비용 계산과 길이 계산이 자꾸 헷갈려.