무슨 일이 일어났나
DeepSeek가 V4 백서를 공개하면서 1M 토큰 컨텍스트의 KV 캐시 사용량을 V3.2의 10% 수준으로 줄였다고 적었어. KV 캐시는 어텐션을 빠르게 돌리려고 키와 값을 미리 저장해두는 메모리야. 컨텍스트가 길어질수록 선형으로 늘어나서 1M 토큰쯤 가면 GPU VRAM을 먹어치우는 부분이지.
수치는 이래:
- 1M 컨텍스트 KV 캐시: V4 Pro 9.62GiB / V3.2 83.9GiB (약 11%)
- 단일 토큰 추론 FLOPs: V4 Pro가 V3.2의 27%
- 모델 사양: V4 Pro 1.6T 총 / 49B 활성, V4 Flash 284B 총 / 13B 활성
왜 이게 일어났나
DeepSeek는 어텐션 자체를 두 갈래로 갈랐어. CSA(Compressed Sparse Attention)는 m개의 토큰을 하나의 KV 엔트리로 압축해두고, 쿼리는 그 중 top-k만 본다고 백서가 설명해. HCA(Heavily Compressed Attention)는 더 강하게 누른 보조 경로야. 두 흐름이 같이 돌아가니까 1M 토큰 안에서도 메모리가 폭발하지 않는 거지.
V3.2에서 토큰 효율 격차를 본인들이 인정했던 흐름이 V4에서 본격적으로 뒤집혔어. 같은 LocalLLaMA 커뮤니티에서 V3.2 한 줄 인용으로 시작된 토론이 결국 다음 세대 발표 근거가 된 셈이야.
어떤 의미인가
1M 컨텍스트 에이전트를 진지하게 운용하려면 그동안 KV 캐시 80GiB+가 큰 벽이었어. 9.62GiB로 떨어지면 H100 80GB 한 장에 모델 가중치와 캐시를 같이 올리는 시나리오가 현실에 들어와. 코드베이스 전체를 통째로 컨텍스트로 밀어넣고 에이전트로 도는 패턴이 단일 카드에서 가능해진다는 뜻이야.
주의할 점
Wccftech는 이 압축 방식이 needle-in-a-haystack 류 평가에서 특정 토큰을 놓칠 위험을 지적했어. 9.62GiB라는 메모리 수치 안에 정확도 trade-off가 숨어있을 수 있다는 거지. 실제 도입 전에 본인 도메인 문서로 long-context 정확도를 따로 측정하는 게 안전해. 백서 수치만 보고 결정하기엔 아직 일러.