한 줄 정의

Prompt Caching은 매번 똑같이 붙는 프롬프트 앞부분을 다시 계산하지 않게 해서 속도와 비용을 줄이는 운영 기법이야. 모델을 더 똑똑하게 만드는 방법이라기보다 같은 모델을 더 싸고 빠르게 쓰게 만드는 서빙 최적화에 가까워.

어떻게 작동하나

긴 시스템 프롬프트나 반복되는 문서 배경처럼 공통 접두부가 있으면 제공자가 그 구간의 계산 결과를 캐시에 보관하고 다음 요청에서 재사용해. 제공된 문서 요약 기준으로 OpenAI는 1024토큰 이상 프롬프트와 OpenAI 같은 적중 지표를 이야기하고, Anthropic은 cache breakpoint와 TTL 정책을 두고 5분 기본 캐시와 1시간 옵션 같은 운영 포인트를 보여 줘.

왜 중요한가

이 기법은 긴 컨텍스트를 쓰는 서비스에서 체감 속도와 운영비를 동시에 건드려. 대형 시스템 프롬프트, 도구 정의, 문서 배경을 매 요청마다 다시 넣는 제품이라면 모델을 바꾸지 않아도 Prompt Caching만으로 차이를 꽤 만들 수 있어.

주의해서 볼 점

Prompt Caching은 이름만 같다고 어디서나 같은 방식으로 동작하지 않아. 캐시에 들어가는 최소 토큰 수, 어떤 변경이 캐시를 깨는지, TTL이 얼마인지가 제공자마다 다르니까 프롬프트 구조와 관측 지표를 같이 봐야 실제 이득이 나.

관련 용어

  • ollama: Ollama는 로컬 모델 실행 환경을 뜻해. Prompt Caching은 그 위나 API 서빙 층에서 반복 입력 계산을 줄이는 기법이라 역할이 달라.
  • vllm: vLLM은 추론 서버와 KV 캐시 운영 맥락에서 자주 같이 나와. 그래도 Prompt Caching은 제품 수준에서 공통 프롬프트를 재사용하는 전략으로 읽는 쪽이 더 정확해.
  • quantization: quantization은 모델 자체를 가볍게 만드는 방법이야. Prompt Caching은 같은 모델에서 반복 입력 비용을 줄이는 방법이라 층위가 달라.
  • distillation: distillation은 더 작은 모델을 새로 만드는 방향이야. Prompt Caching은 모델은 그대로 둔 채 서빙 효율을 높이는 방향이야.