한 줄 정의
Context Window는 모델이 답을 만들 때 눈앞에 두고 참고하는 전체 토큰 범위야. 프롬프트, 이전 대화, 붙인 문서, 도구 호출 결과, 그리고 이번에 생성할 답변까지 전부 이 범위 안에서 같이 계산돼. 이건 학습 데이터의 크기나 모델의 장기 기억을 뜻하는 말이 아니야. 더 정확하게는 지금 이 순간 모델이 작업용으로 붙잡고 있는 임시 작업 공간에 가까워.
어떻게 작동하나
모델은 문장을 글자 그대로 읽지 않고 토큰 단위로 쪼개서 처리해. 그래서 컨텍스트 윈도우도 글자 수가 아니라 토큰 수로 잡히고, 같은 문서라도 tokenizer가 다르면 실제로 들어가는 양이 달라져. 대화가 길어질수록 이전 턴과 새 입력이 계속 누적되고, 여기에 출력 토큰 몫까지 더해져 전체 예산을 써. 상한이 크면 긴 문서나 긴 대화를 한 번에 다루기 쉬워지지만, 내용이 많다고 항상 더 잘 읽는 건 아니고 중간 정보 회수력이 떨어지는 문제도 생길 수 있어.
왜 중요한가
실무에서는 이 숫자가 곧바로 설계 선택으로 이어져. 컨텍스트가 넓으면 문서를 덜 잘게 쪼개도 되고, 여러 검색 결과나 로그를 한 번에 붙여 넣기 쉬워져서 요약 파이프라인이나 RAG 구성을 단순하게 만들 수 있어. 기사 해석에서도 중요해. ‘1M 컨텍스트’ 같은 문구가 나오면 먼저 긴 입력을 넣을 수 있는 상한이 커졌다고 읽으면 되고, 그다음에 실제 품질이 유지되는지, 응답 지연이 얼마나 늘어나는지, 비용이 감당 가능한지 따로 봐야 해. 숫자가 커졌다는 사실만으로 정확도나 추론 능력까지 같이 올라갔다고 보면 오독이야.
주의해서 볼 점
첫째, 큰 컨텍스트와 좋은 성능은 같은 말이 아니야. 윈도우가 넓어도 모델이 긴 문서의 모든 부분을 균등하게 잘 쓰는 건 아니어서, 중요한 정보는 여전히 앞뒤 배치나 요약 방식의 영향을 받아. 둘째, 숫자 비교를 그대로 믿으면 곤란해. 같은 200K라도 어떤 tokenizer를 쓰는지, 한국어·코드·표·PDF가 얼마나 섞였는지에 따라 체감 길이가 달라지고, 출력 토큰이 많이 필요하면 입력에 쓸 수 있는 몫은 줄어들어. 셋째, 제품 채팅 화면에서 보여 주는 체감 대화 길이와 API의 공식 컨텍스트 계산 방식이 같지 않은 경우도 있어서, 기사나 문서가 무엇을 기준으로 말하는지도 확인해야 해.
관련 용어
- Long Context(롱 컨텍스트) — 컨텍스트 윈도우가 ‘얼마나 많이 담을 수 있나’라는 상한 개념이라면, 롱 컨텍스트는 그 긴 범위를 실제 성능과 제품 경쟁력으로 다루는 쪽에 더 가까워. 숫자만 큰지, 긴 입력에서도 회수와 추론이 버티는지는 여기서 갈려.
- Tokenizer(토크나이저) — 컨텍스트 윈도우 숫자를 실제 문서 길이로 바꿔 읽으려면 먼저 봐야 하는 도구야. 같은 문장도 tokenizer가 다르면 토큰 수가 달라져서, 스펙표의 K 숫자가 현실에서 체감되는 길이와 어긋날 수 있어.