이 용어는 어디까지 신뢰할 수 있나요?

FP8 KV는 LLM이 다음 토큰을 만들 때 다시 읽는 KV 캐시를 FP8 8비트 부동소수점 형식으로 저장하거나, FP8 attention 경로에서 계산하게 하는 실행 설정이야. 모델 가중치가 FP8이라는 뜻과는 달라. 가중치는 FP8인데 캐시는 BF16 KV일 수도 있고, 가중치는 BF16인데 캐시만 FP8로 줄일 수도 있어.

먼저 숫자부터 보면 감이 와. BF16은 원소 하나가 2바이트고 FP8은 1바이트라서, 같은 key/value 값을 같은 개수만큼 저장하면 FP8 KV가 raw dtype 폭 기준으로 절반이야. 그래서 긴 컨텍스트 윈도우나 여러 동시 요청에서 GPU VRAM 사용량을 줄이는 선택지가 된다.

다만 이건 “공짜로 긴 문맥이 좋아진다”는 말이 아니야. KV 캐시는 생성 중 계속 다시 읽히는 값이라서, 스케일 보정, 어텐션 실행 경로, 모델 구조, 실제 프롬프트 길이에 따라 품질 회귀가 생길 수 있어. FP8 KV는 메모리와 생성 비용을 줄이는 선택지이고, 품질 기준선은 여전히 BF16 KV와 나란히 재야 해.

어떻게 작동하나

토큰을 하나 생성할 때 모델은 앞 토큰들의 key와 value를 다시 참고해. KV 캐시는 이 값을 저장해 두었다가 다음 토큰에서 재사용하는 내부 메모리야. Hugging Face 블로그는 Llama-2 7B 예시에서 10,000 token의 KV cache가 2 * 2 * 32 * 32 * 128 * 10000 계산으로 약 5GB가 될 수 있다고 보여 줘. 모델 파일만 GPU에 올리는 문제가 아니라, 문맥이 길어질수록 캐시가 따로 커지는 구조라는 뜻이야.

vLLM에서는 --kv-cache-dtype fp8 설정으로 이 캐시를 FP8로 둘 수 있어. vLLM Quantized KV Cache 문서는 per-tensor scale과 per-attention-head scale을 나눠 설명하고, scale을 잡는 방식도 세 가지로 갈라. 무보정이면 scale을 1.0으로 두고, warmup 중 random token에서 scale을 잡을 수도 있고, llm-compressor로 calibration dataset을 써서 scale을 추정할 수도 있어.

여기서 중요한 건 FP8 KV가 단순 파일 압축이 아니라는 점이야. vLLM의 2026년 4월 22일 블로그는 이 캐시 dtype을 켜면 KV cache 양자화와 QK·ScoreV attention matmul이 함께 FP8 경로를 탄다고 설명해. FA3 경로에서는 query까지 FP8로 양자화될 수 있으니, 실제 결과는 “캐시 저장량”과 “attention kernel”을 같이 봐야 해.

왜 중요한가

FP8 KV가 중요한 이유는 긴 문맥 서빙이 자주 메모리 병목으로 바뀌기 때문이야. vLLM 블로그는 full-attention decoder에서 128k 이상 context가 되면 KV cache가 GPU memory를 크게 차지하고, decode 단계에서 매 토큰마다 캐시의 큰 부분을 읽어야 한다고 설명해. 이때 FP8 KV는 캐시 저장량과 메모리 트래픽을 줄여서 더 긴 문맥, 더 높은 동시성, 낮은 decode 지연을 노릴 수 있어.

숫자로 보면 장점이 꽤 분명해. vLLM의 H100 단일 요청 Llama-3.1-8B 실험에서 FP8의 ITL slope는 BF16의 54%였고, decode break-even은 약 7,010 tokens로 내려갔어. 동시성 8, 약 20k 입력 토큰과 약 2k 출력 토큰 조건의 처리량 실험에서는 output throughput이 14.9% 높아졌다고 보고돼. 이건 “짧은 질문 하나가 무조건 빨라진다”가 아니라, 긴 문맥에서 캐시 읽기가 병목일 때 이득이 커진다는 뜻이야.

Blackwell 쪽도 같은 식으로 봐야 해. 같은 vLLM 블로그는 B200과 FlashInfer 조합에서 Llama-3.1-8B FP8 decode break-even을 약 4k tokens로 제시하지만, gpt-oss 20b는 약 13k tokens라고 나눠 적어. GPU 세대가 좋아졌다고 모든 모델의 FP8 KV 판단이 같아지는 건 아니야.

BF16 KV와 어디서 갈리나

BF16 KV는 캐시를 16비트로 남기는 보수적인 기준선이야. 메모리는 더 쓰지만, 긴 코딩 에이전트 작업이나 도구 호출처럼 앞 문맥의 작은 차이가 뒤 행동을 바꾸는 작업에서는 먼저 비교해야 할 기준점이 된다. 반대로 FP8 KV는 캐시를 줄여서 더 긴 문맥이나 더 많은 동시 요청을 밀어 넣는 선택이야.

Reddit의 LocalLLaMA 논의는 이 차이가 왜 실제로 헷갈리는지 잘 보여 줘. 원문 작성자는 Qwen3.6 27B FP8 safetensors를 vLLM에서 두 장의 RTX 3090으로 돌리며 긴 문맥을 쓰는 코딩 에이전트 실행 환경을 운영했고, KV를 FP8로 두면 작은 실수와 도구 호출 문제가 늘었다고 썼어. 그러면서 16비트 KV로 고정했을 때 더 믿고 쓸 수 있었다고 느꼈다고 해.

이 글은 공식 벤치마크가 아니야. 하지만 좋은 경고는 돼. 같은 스레드에서도 FP8 KV와 Q8 KV를 구분해야 한다는 댓글이 이어지고, 어떤 사용자는 200K 문맥에서 Q8 KV가 BF16보다 훨씬 빠르다고 보고해. 결론은 “FP8 KV는 나쁘다”가 아니라, 같은 모델, 같은 프롬프트 묶음, 같은 실행 경로에서 BF16 KV와 FP8 KV를 직접 비교해야 한다는 쪽이야.

vLLM 블로그도 같은 방향이야. 예전 Hopper FA3 경로에서는 128k needle-in-a-haystack에서 FP8 accuracy가 91% BF16 기준선에서 13%까지 떨어진 사례가 있었고, 2단 누산 수정 뒤 89%로 회복됐다고 설명해. FP8 KV가 쓸 만해졌다는 최신 주장은 이런 kernel fix와 검증 경로까지 포함해서 읽어야 해.

주의해서 볼 점

첫째, 짧은 문맥에서는 FP8 KV가 이득이 아닐 수 있어. vLLM은 context가 약 7k tokens보다 짧으면 FP8의 고정 overhead 때문에 BF16이 ITL에서 더 나을 수 있다고 적어. 짧은 챗봇 요청만 처리한다면 먼저 BF16 기준선과 실제 p50·p95 지연시간을 재는 게 맞아.

둘째, 입력 채우기가 무거운 작업과 생성이 무거운 작업을 나눠 봐야 해. 긴 문서를 처음 넣는 prefill은 입력 길이의 영향을 크게 받고, 이미 긴 문맥을 들고 다음 토큰을 계속 만드는 decode는 KV cache 읽기 비용이 크게 들어와. vLLM은 head_dim = 256 모델에서 2단 누산 때문에 긴 문맥 TTFT가 BF16보다 약 1.6x 나빠질 수 있다고 적어. FP8 decode가 빨라도 첫 토큰 대기가 길어지면 실제 사용감은 나빠질 수 있어.

셋째, hybrid attention 모델은 레이어별로 다르게 볼 수 있어. gpt-oss 20b처럼 고정 window 레이어가 섞인 모델에서는 작은 window 범위를 FP8로 줄여도 긴 문맥 이득이 잘 나오지 않고 overhead만 남을 수 있어. vLLM은 이런 경우 skip-layers 설정으로 해당 레이어는 BF16으로 남기는 경로를 제시해.

실무에서는 FP8 KV를 켜기 전에 아래 항목을 같은 표에 넣어야 해.

모델 가중치 dtype과 KV cache dtype
어텐션 실행 경로와 GPU 세대: H100, H200, B200, FA3, FlashInfer 등
max-model-len, 실제 프롬프트 토큰, 출력 토큰
prefill TTFT, decode ITL, output tok/s, 최대 GPU VRAM
무보정 scale인지, random token calibration인지, dataset calibration인지
코딩 작업, 도구 호출, 긴 문맥 검색 같은 실제 작업 정확도

FP8 KV는 긴 문맥 서빙에서 검토할 만한 설정이야. 대신 품질 검증을 빼고 “캐시가 절반이니 무조건 좋다”로 읽으면 위험해. 좋은 적용 순서는 BF16 KV 기준선을 먼저 재고, FP8 KV를 켠 뒤 같은 작업에서 속도와 품질을 같이 비교하는 쪽이야.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-07 KST

검증 생성: AI + 편집 검토 · 2026-05-07 상태: 통과

통과 원문 대조 검증 출처 4

FP8 KV를 모델 가중치 형식이 아니라 KV 캐시와 attention 실행 경로의 정밀도 설정으로 잡았는지 원문과 대조했어.

독자 문제 대조: FP8 KV를 FP8 가중치 배포본이나 Q8 KV와 같은 말로 읽지 않게, 캐시 dtype과 어텐션 실행 경로 설정으로 첫 문단에서 갈랐어.
vLLM 문서는 Quantized KV Cache 페이지에서 FP8 KV cache가 캐시 메모리 사용량을 줄이고 더 긴 context window와 처리량을 돕는다고 설명해.
같은 문서는 FP8 KV cache quantization scheme을 per-tensor scale과 per-attention-head scale로 나누고, per-head 방식은 FA backend와 llm-compressor calibration 경로가 필요하다고 적어.
vLLM 문서는 scale 계산 방식을 세 갈래로 제시해. scale 1.0을 쓰는 무보정, warmup 중 random token으로 잡는 방식, calibration dataset을 쓰는 방식이야.
vLLM 블로그는 FP8 캐시 dtype 설정이 KV cache를 양자화하고 QK와 ScoreV attention 계산도 FP8로 수행한다고 설명해서, 단순 저장 포맷보다 넓은 실행 경로임을 확인했어.
Reddit 원문은 Qwen3.6 27B FP8 safetensors와 FP8 KV를 구분하지 못해 생긴 혼란을 보여 주지만, 커뮤니티 경험담이므로 공식 성능 근거로 쓰지 않았어.

통과 교차 검증 검증 출처 4

공식 문서, 공식 블로그, Hugging Face 설명, Reddit 논의를 나눠서 기능 설명과 위험 신호가 같은 방향인지 비교했어.

비교 기준: vLLM 문서는 구현 옵션, 2026년 4월 검증 글은 장기 문맥 결과, Hugging Face 블로그는 KV cache memory bottleneck, Reddit은 코딩 에이전트 작업에서 느낀 품질 문제를 맡겼어.
Hugging Face 블로그는 autoregressive 생성에서 이전 key/value를 저장해 다시 쓰는 KV cache 구조를 설명하고, 긴 context length나 큰 batch size에서 메모리 병목이 된다고 적어.
공식 성능 글은 128k 이상 long-context serving에서 KV cache가 GPU memory를 지배할 수 있다고 보고, FP8로 저장량을 절반으로 줄이면 더 긴 문맥이나 동시성을 얻을 수 있다고 설명해.
Reddit 댓글들은 FP8 KV와 Q8 KV를 같은 것으로 보지 말라는 방향으로 이어지고, 한 사용자는 도구 호출과 코딩 실행 환경에서 작은 실수를 겪었다고 보고해. 본문은 이를 재현 대상 신호로만 남겼어.
B200과 H100 결과가 따로 제시되어 있어서, 본문에서 FP8 KV를 특정 GPU 한 세대의 보장 성능으로 일반화하지 않았어.

통과 수치 검증 검증 출처 3

본문 수치는 1바이트 FP8, 2바이트 BF16, 10,000-token 예시, 128k·1M 평가, 54% slope, 14.9% throughput처럼 출처별 역할을 붙여 검증했어.

FP8은 8비트라 원소 하나를 1바이트 폭으로 다루고, BF16은 16비트라 2바이트 폭으로 다룬다는 비교만 dtype 폭 설명에 썼어.
Hugging Face 블로그의 Llama-2 7B 예시는 10,000 token KV cache가 `2 * 2 * 32 * 32 * 128 * 10000` 계산으로 약 5GB가 된다고 보여 줘서 캐시가 독립 메모리 병목이라는 설명을 뒷받침해.
H100 Llama-3.1-8B 단일 요청 결과는 FP8 ITL slope가 BF16의 54%까지 내려가고 break-even이 약 7,010 tokens라고 제시해.
같은 블로그는 concurrency 8, 약 20k input tokens, 약 2k output tokens 조건에서 Llama-3.1-8B FP8 KV가 output throughput을 14.9% 높였다고 보고해.
Hopper 128k needle-in-a-haystack 사례는 FP8 accuracy가 91% BF16 baseline에서 13%로 떨어졌다가 2단 누산 수정 뒤 89%로 회복됐다고 적혀 있어, 품질 검증을 빼면 위험하다는 본문 주의와 맞아.
Blackwell B200 결과는 Llama-3.1-8B에서 FP8 decode break-even을 약 4k tokens로 제시하지만, gpt-oss-20b는 약 13k tokens라고 나뉘어서 모델별 확인이 필요하다는 제한을 남겼어.

통과 비판 검토 검증 출처 4

FP8 KV를 긴 문맥의 기본 해법으로 과장하지 않도록, 짧은 문맥·head_dim 256·hybrid attention·무보정 정확도 하락을 따로 걸렀어.

공식 검증 글은 short context가 약 7k tokens보다 짧으면 FP8의 고정 overhead 때문에 BF16이 더 나을 수 있다고 경고해.
head_dim 256 모델에서는 2단 누산 때문에 긴 문맥 TTFT가 약 1.6배 나빠질 수 있어, 생성 단계 이득만 보고 입력 채우기가 무거운 작업에 적용하면 오판이야.
gpt-oss-20b 같은 hybrid attention 모델은 작은 SW layer에서 FP8 overhead가 잘 amortize되지 않아서, vLLM은 그 레이어를 건너뛰는 혼합 설정을 제시해.
무보정 FP8 scale에서 실제 작업 정확도가 95% 아래로 떨어지면 BF16으로 남기거나 목표 데이터셋으로 보정해야 한다는 경고를 본문에 반영했어.
Reddit의 FP8 KV 품질 불만은 단일 사용자 장비와 실행 환경 조건이라 일반 결론으로 쓰지 않았고, 같은 모델·같은 프롬프트·같은 실행 경로에서 BF16 KV와 비교해야 한다고 좁혔어.

FP8 KV의 핵심은 캐시 저장량과 decode 비용을 줄이는 선택이야. 가중치 FP8, Q8 KV, BF16 KV와 섞어 말하면 속도와 품질 판단이 바로 꼬여.

출처: r/LocalLLaMA - KV cache quantization: ignorance, or malice? , vLLM Docs - Quantized KV Cache , vLLM Blog - The State of FP8 KV-Cache and Attention Quantization in vLLM , Hugging Face Blog - Unlocking Longer Generation with Key-Value Cache Quantization

FP8 KV (FP8 키-값 캐시)

전체 AI 기술 맵에서의 위치

한 줄 정의

어떻게 작동하나

왜 중요한가

BF16 KV와 어디서 갈리나

주의해서 볼 점

관련 용어

이 항목을 참조하는 위키