핵심 정의

24GB GPU는 24GB GPU VRAM을 가진 GPU를 말해. 로컬 LLM을 돌릴 때 자주 언급되지만, 이 숫자 하나만으로 “31B도 된다”거나 “35B도 된다”라고 결론내리면 바로 틀리기 쉬워.

초보자는 먼저 이렇게 가르면 돼.

  • 24GB 한 장을 먼저 시도해도 되는 경우: Gemma 4 31B 같은 30B급 모델을 INT4 같은 낮은 양자화로 돌릴 생각이고, 컨텍스트 윈도우를 짧게 잡고, 동시 요청보다 1회성 추론을 우선할 때.
  • 바로 상위 VRAM이나 API를 보는 경우: 31B나 35B급 모델을 BF16 또는 FP16으로 그대로 쓰려 하거나, 128K~256K급 긴 컨텍스트 윈도우를 기본값으로 유지해야 하거나, 이미지 입력과 높은 동시성까지 한 장에서 같이 원할 때.

즉 24GB는 만능 분기점이 아니라, “저정밀도 + 짧은 문맥 + 낮은 동시성” 조건에서만 시도권이 생기는 구간이라고 보는 편이 맞아.

어떻게 판단하나

핵심은 메모리를 누가 먹는지 따로 보는 거야. 가중치, KV Cache, 런타임 버퍼가 모두 VRAM을 차지한다.

Google의 Gemma 4 공식 카드 기준으로 31B dense 모델은 총 파라미터가 30.7B이고 256K 컨텍스트 윈도우를 지원해. Qwen 공식 카드 기준으로 Qwen3.5-35B-A3BQwen3.6-35B-A3B는 35B total / 3B activated 구조이고 native context는 262,144 토큰이야. 여기서 중요한 건 activated 3B가 계산량 설명이지, 전체 가중치 저장 부담이 3B라는 뜻은 아니라는 점이야.

그래서 31B dense나 35B급 MoE를 BF16이나 FP16으로 그대로 올리면 24GB는 금방 부족해진다. 반대로 4비트급 양자화가중치 메모리를 줄이면 24GB에서 “실행은 되는” 조합이 생길 수 있어. 다만 이때도 긴 문맥을 열면 KV Cache가 다시 커져서 여유분을 빠르게 잡아먹는다. Qwen 공식 카드가 OOM이 나면 context window를 줄이라고 직접 적는 이유도 여기 있어.

정리하면 24GB 판단은 모델 이름보다 조합으로 보는 게 맞아.

왜 중요하냐

24GB 구간은 접근성이 높은 편이라서 자주 거론돼. 하지만 의미가 생기는 건 “API 대신 무조건 싸다”여서가 아니라, 짧은 문맥과 낮은 정밀도를 받아들일 수 있는 로컬 실험에서는 장비 한 장으로도 검증을 시작할 수 있기 때문이야.

반대로 긴 문맥, 멀티모달 입력, 높은 동시성, 튜닝 없는 안정성을 같이 원하면 24GB는 빠르게 한계가 드러난다. 이 경우에는 더 큰 VRAM 장비로 올라가거나, 애초에 API를 쓰는 편이 실패 비용이 낮을 수 있어.

주의해서 볼 점

24GB를 “30B급 로컬 LLM의 정답”처럼 읽으면 안 돼. 공식 모델 카드가 보여 주는 건 모델 크기와 native context의 상한이지, 네 GPU 한 장에서 어떤 정밀도와 어떤 문맥 길이로 항상 돌아간다는 보장은 아니야.

특히 기존 초안에 있던 35.27B 같은 숫자는 공식 Qwen 카드의 표기와 맞지 않았어. 이번 수정본은 Qwen 공식 문서가 직접 쓰는 35B total / 3B activated 기준으로 다시 맞췄고, 긴 문맥 수치도 262,144 native확장 경로를 분리해서 적었어. 이 페이지를 볼 때는 “24GB면 되나?”보다 “내가 쓰려는 정밀도와 컨텍스트를 24GB가 버티나?”를 먼저 묻는 편이 더 안전해.