한 줄 정의

VRAM은 그래픽카드 안에서 GPU가 바로 접근하는 고속 비디오 메모리야. CPU가 쓰는 일반 RAM과 따로 붙은 그래픽카드 전용 작업대에 가깝고, 로컬 LLM에서는 “이 모델을 내 장비에서 올릴 수 있나”를 먼저 가르는 숫자로 자주 나와.

NVIDIA의 VRAM 설명도 VRAM을 그래픽카드에 있는 고속 메모리로 설명해. 게임에서는 텍스처와 프레임 데이터를 담고, LLM 추론에서는 가중치, 활성값, 긴 문맥을 위한 KV cache가 이 공간을 먹어. 그래서 “24GB GPU”라는 말은 단순히 GPU가 빠르다는 뜻이 아니라, 한 번에 올릴 수 있는 모델과 컨텍스트 길이의 상한을 암시하는 말이야.

어떻게 작동하나

LLM을 로컬에서 실행하면 먼저 모델 파일의 가중치가 VRAM에 올라가. 그다음 답을 생성하는 동안 이전 토큰어텐션 계산 결과를 KV cache로 저장해. 문맥 길이를 4K에서 16K, 60K, 262K처럼 늘리면 가중치 크기는 그대로여도 KV cache가 커져서 VRAM 여유가 빠르게 줄어.

여기서 양자화가 같이 등장해. FP16이나 BF16으로 들고 있던 값을 Q4, Q8 같은 낮은 비트 표현으로 줄이면 같은 모델을 더 작은 VRAM에 올릴 수 있어. 예를 들어 Qwen3.5-27B를 기반으로 만든 Jackrong의 27B reasoning distilled 체크포인트 카드에는 RTX 3090에서 Q4_K_M 기준 약 16.5GB VRAM, 29-35 tok/s, 262K 컨텍스트라는 커뮤니티 테스트 수치가 적혀 있어. 숫자는 흥미롭지만, GPU와 양자화런타임 조건까지 묶어서 읽어야 해.

왜 중요한가

VRAM은 로컬 LLM 선택에서 모델 품질보다 먼저 막히는 현실 조건이야. 모델이 똑똑해 보여도 VRAM이 부족하면 아예 올라가지 않거나, CPU 메모리로 넘겨서 응답이 확 느려질 수 있어. “이 모델은 16GB에서 된다”는 말도 컨텍스트 길이, GGUF 양자화, GPU offload 범위, 런타임 설정을 같이 봐야 의미가 생겨.

실무 장면은 두 가지가 흔해. 첫째, 개인 장비에서 Ollamallama.cpp로 코딩 보조 모델을 돌릴 때야. 16GB VRAM이면 어떤 20B급 모델은 긴 문맥을 줄여야 하고, 어떤 14B급 모델은 여유를 남길 수 있어. 둘째, 24GB급 GPU에서 27B나 30B급 모델을 Q4 양자화로 올려 에이전트 실험을 할 때야. 이때도 남은 VRAM이 브라우저, IDE, 화면 캡처, 다른 GPU 작업과 같이 나눠 쓰이는지 봐야 해.

LocalLLM.in의 16GB VRAM 테스트를 보면 이 감각이 선명해져. 다만 이 글은 단일 테스트 글이라 순위보다 조건을 보는 자료로 쓰는 게 맞아. GPT-OSS 20B는 60K 컨텍스트에서 13.7GB VRAM으로 제시됐고, Qwen3 14B는 4K 컨텍스트에서 9.2GB VRAM으로 제시됐어. Apriel 1.5는 이미지 입력을 받는 변형 기준 4K에서 9.9GB, 16K에서 13.2GB로 올라가. 비교할 때는 모델 파라미터 수만 보지 말고 컨텍스트와 기능 설정을 같이 봐야 해.

주의해서 볼 점

VRAM이 많다고 답변 품질이 자동으로 좋아지는 건 아니야. VRAM은 모델을 올릴 공간이고, 품질은 모델 학습, 데이터, 양자화 손실, 런타임 구현, 프롬프트에 더 직접적으로 영향을 받아. 24GB 카드가 16GB 카드보다 늘 더 좋은 답을 만든다는 식으로 읽으면 금방 틀려.

또 VRAM 수치는 장비마다 의미가 달라. 데스크톱 NVIDIA 그래픽카드의 GDDR6X 전용 VRAM, Apple Silicon의 unified memory, 내장 GPU가 시스템 RAM을 나눠 쓰는 구조는 운영 감각이 같지 않아. “메모리 32GB”라고 적혀 있어도 그중 얼마를 GPU가 빠르게 쓸 수 있는지, 모델 가중치KV cache가 어디에 올라가는지를 따로 봐야 해.

모델 카드벤치마크에서 VRAM 숫자를 볼 때는 순서를 이렇게 잡으면 덜 헷갈려.

  • 모델 파라미터 수를 먼저 봐. Qwen 계열처럼 이름이 비슷해도 14B, 27B, 30B는 적재 부담이 달라.
  • 정밀도나 양자화 형식을 확인해. FP16, BF16, Q4, Q8은 필요한 VRAM을 다르게 만들어.
  • 컨텍스트 길이를 같이 봐. 4K와 60K는 같은 모델이어도 KV cache 부담이 다르다.
  • 어떤 런타임에서 돌렸는지 확인해. 같은 GGUF 파일도 실행 엔진과 GPU로 넘겨 돌리는 레이어 범위에 따라 수치가 달라져.
  • GPU 종류와 VRAM 구성을 분리해서 봐. 24GB GDDR6X 전용 VRAM과 통합 메모리 32GB는 같은 숫자표가 아니야.
  • 측정한 tok/s와 입력 조건을 같이 확인해. 이 여섯 가지가 빠진 VRAM 수치 주장은 대충 방향만 보여 주는 숫자야.