무슨 일이 일어났나

DeepSeekV4 백서를 공개하면서 1M 토큰 컨텍스트KV 캐시 사용량을 V3.2의 10% 수준으로 줄였다고 적었어. KV 캐시는 어텐션을 빠르게 돌리려고 키와 값을 미리 저장해두는 메모리야. 컨텍스트가 길어질수록 선형으로 늘어나서 1M 토큰쯤 가면 GPU VRAM을 먹어치우는 부분이지.

수치는 이래:

왜 이게 일어났나

DeepSeek어텐션 자체를 두 갈래로 갈랐어. CSA(Compressed Sparse Attention)는 m개의 토큰을 하나의 KV 엔트리로 압축해두고, 쿼리는 그 중 top-k만 본다고 백서가 설명해. HCA(Heavily Compressed Attention)는 더 강하게 누른 보조 경로야. 두 흐름이 같이 돌아가니까 1M 토큰 안에서도 메모리가 폭발하지 않는 거지.

V3.2에서 토큰 효율 격차를 본인들이 인정했던 흐름이 V4에서 본격적으로 뒤집혔어. 같은 LocalLLaMA 커뮤니티에서 V3.2 한 줄 인용으로 시작된 토론이 결국 다음 세대 발표 근거가 된 셈이야.

어떤 의미인가

1M 컨텍스트 에이전트를 진지하게 운용하려면 그동안 KV 캐시 80GiB+가 큰 벽이었어. 9.62GiB로 떨어지면 H100 80GB 한 장에 모델 가중치와 캐시를 같이 올리는 시나리오가 현실에 들어와. 코드베이스 전체를 통째로 컨텍스트로 밀어넣고 에이전트로 도는 패턴이 단일 카드에서 가능해진다는 뜻이야.

주의할 점

Wccftech는 이 압축 방식이 needle-in-a-haystack 류 평가에서 특정 토큰을 놓칠 위험을 지적했어. 9.62GiB라는 메모리 수치 안에 정확도 trade-off가 숨어있을 수 있다는 거지. 실제 도입 전에 본인 도메인 문서로 long-context 정확도를 따로 측정하는 게 안전해. 백서 수치만 보고 결정하기엔 아직 일러.