이 용어는 어디까지 신뢰할 수 있나요?

각 용어는 최신 공개 자료 기반으로 정리되며, 출처와 검증 기록을 바탕으로 점진적으로 업데이트됩니다.

GPU VRAM(GPU 전용 비디오 메모리)

다른 이름: gpu vramGPU VRAM

GPU VRAM은 로컬 LLM을 돌릴 때 GPU 쪽에 실제로 남는 빠른 메모리 예산을 뜻해. 다만 요즘은 일부를 RAM이나 다른 GPU로 넘겨 실행하는 오프로드와 장치 메모리에 맞게 자동 조정하는 auto-fit이 있어서, 이 숫자를 단순한 fit-or-fail 기준으로만 읽으면 자주 틀려.

전체 AI 기술 맵에서의 위치

응용 (Application)

프로젝트 (Project)

데이터셋 (Dataset)

기법 (Technique)

프레임워크 (Framework)

모델 (Model)

개념 (Concept)

Agents SDK(에이전트 SDK)AI Studio (AI 스튜디오)Aider(에이더)Alibaba Cloud API(알리바바 클라우드 API)Alibaba Cloud Model Studio(알리바바 클라우드 모델 스튜디오)Amazon Bedrock(아마존 베드록)Anthropic API(앤트로픽 API)App Store(앱 스토어)Batch API(배치 API)BentoML(벤토엠엘)Chat (대화형 AI 인터페이스)Chat Completions(챗 컴플리션스)ChatGPT(챗지피티)Chroma(크로마)Claude Code(클로드 코드)Claude Code Remote Control(클로드 코드 리모트 컨트롤)Claude Cowork(클로드 코워크)Claude Desktop(클로드 데스크톱)claude remote-control(클로드 리모트 컨트롤 명령)claude --version (버전 조회)claude.ai(클로드 웹 앱)Cline(클라인)CloudTrail(클라우드트레일)Codex(코덱스)Codex CLI(코덱스 CLI)ComfyUI(컴피유아이)Continue(컨티뉴)GitHub Copilot (깃허브 코파일럿)Cursor(커서)DeepSeek API(딥시크 API)DGX B200(디지엑스 B200)DGX Spark(디지엑스 스파크)Docker(도커)Excel(엑셀)FAISS (페이스)Gemini API(제미니 API)Gemini API File Search(제미니 API 파일 검색)Gemini Developer API(제미니 디벨로퍼 API)Gemini Enterprise Agent Platform(제미니 엔터프라이즈 에이전트 플랫폼)GitHub (깃허브)Gmail(지메일)Google AI Studio(구글 AI 스튜디오)Google Calendar(구글 캘린더)Google Docs(구글 문서)Google Drive(구글 드라이브)Google Search(구글 검색)Google Sheets(구글 시트)H100 (엔비디아 호퍼 GPU)Hugging Face(허깅 페이스)Jetson Thor(젯슨 토르)Kimi API(키미 API)Kimi Code(키미 코드)Kimi.com(키미닷컴)KTransformers (케이트랜스포머스)Live API(라이브 API)llama-cli (로컬 LLM CLI)llama.cpp(로컬 LLM 런타임)llama-server(로컬 LLM 서빙 서버)llama.cpp (로컬 LLM 추론 엔진)LM Studio(엘엠 스튜디오)LocalLLaMA (로컬라마)Microsoft Foundry(마이크로소프트 파운드리)MiMo Code (미모 코드)MLflow(엠엘플로우)Modal(모달)Model Garden(모델 가든)Model Studio(모델 스튜디오)Model Studio API(모델 스튜디오 API)ModelScope(모델스코프)n8n(엔에잇엔)Ollama(올라마)OpenAI API(오픈에이아이 API)OpenAI Chat Completion(오픈AI 챗 컴플리션)OpenAI SDK(오픈에이아이 SDK)OpenClaw(오픈클로)OpenRouter(오픈라우터)Perplexity (퍼플렉시티)Pinecone (파인콘)Qdrant (큐드런트)Qwen API(큐원 API)Qwen Code(큐원 코드)Qwen Studio(큐원 스튜디오)Raspberry Pi (라즈베리 파이)Replicate(레플리케이트)Responses API(리스폰스 API)SGLang(에스지랭)Studio(스튜디오)Supabase(수파베이스)Tokenizer(토크나이저)Triton Inference Server(트리톤 추론 서버)Vector Database (벡터 데이터베이스)vLLM(브이엘엘엠)VS Code(비주얼 스튜디오 코드)Weaviate(위비에이트)Weights & Biases(웨이츠 앤 바이어시스)Windsurf(윈드서프)

Activepieces (액티브피시스)agent-skills Agentic AQUA (에이전틱 아쿠아)AgentTrust Apache Airflow (아파치 에어플로)Cairn (케언)DeepGEMM(딥시크 CUDA 커널 라이브러리)Engram(엔그램)HyperFrames (하이퍼프레임스)LightRAG (라이트RAG)Manifest (매니페스트)mcp-mydisease (MyDisease.info MCP 서버)mcp-xray (Jira Xray MCP 서버)NautilusTrader (노틸러스 트레이더)NostalgiaForInfinity (노스탤지아 포 인피니티)opencodex(오픈코덱스)OpenMemory (오픈메모리)PocketBase (포켓베이스)Microsoft Qlib (마이크로소프트 Qlib)Savvly MCP (세이블리 MCP 서버)Tmax(티맥스)whisper.cpp (위스퍼.cpp)yfinance (와이파이낸스)

Nemotron-Personas-Korea (네모트론 페르소나스 코리아)PII-Masking-300k(피아이아이 마스킹 300K)

Agentic AI (에이전틱 AI)Agentic Coding(에이전틱 코딩)benchmark (벤치마크)Chain-of-Thought(연쇄 추론 유도)DeepSeek Sparse Attention (딥시크 스파스 어텐션)Distillation (지식 증류)Eval(평가)Fine-tuning (파인튜닝)Function Calling(함수 호출)Grounding (그라운딩)Guardrail(가드레일)--kv-cache-dtype bfloat16 (BF16 KV 캐시 저장 형식 플래그)Prompt Caching(프롬프트 캐싱)Prompt Engineering(프롬프트 엔지니어링)Quantization (양자화)RAG (검색 증강 생성)reasoning.effort (리즈닝 이포트)Red Teaming (레드 팀잉)RLHF(인간 피드백 기반 강화학습)Speech to Text(음성 인식)Synthetic Data(합성 데이터)Text to Speech(음성 합성)Tool Use(도구 사용)Training(학습)Vibe Coding(바이브 코딩)

Agent Platform(에이전트 플랫폼)Agent Runtime(에이전트 런타임)AutoGen(오토젠)Claude Managed Agents(클로드 매니지드 에이전트)CrewAI (크루에이아이)DeepSpeed(딥스피드)GGUF(GGUF 모델 파일 형식)Gradio (그라디오)JAX (잭스)Kubeflow(쿠브플로우)LangChain (랭체인)LangGraph(랭그래프)LlamaIndex (라마인덱스)llm-server(로컬 llama.cpp 서빙 자동화 프레임워크)MCP (모델 컨텍스트 프로토콜)MCP server (MCP 서버)MLX(엠엘엑스)ONNX(오닉스)PyTorch(파이토치)Ray(레이)Runtime(런타임)Streamlit(스트림릿)TensorFlow (텐서플로)TensorRT Edge-LLM(텐서RT 엣지 LLM)Transformer Engine(트랜스포머 엔진)Vercel AI SDK(버셀 AI SDK)x402 (에이전트 micropayment 프로토콜)

Alibaba Qwen (알리바바 큐원)Anthropic Claude(앤트로픽 클로드)ChatGPT-5.2 Instant (챗지피티 5.2 인스턴트)ChatGPT-5.2 Pro (챗지피티 5.2 프로)Claude(클로드)Claude Fable 5(클로드 페이블 5)Claude Opus(클로드 오퍼스)Claude Opus 4.5(클로드 오퍼스 4.5)Claude Opus 4.6(클로드 오퍼스 4.6)Claude Opus 4.7(클로드 오퍼스 4.7)Claude Opus 4.6(클로드 오퍼스 4.6)Claude Sonnet (클로드 소넷)Claude Sonnet 4.5(클로드 소네트 4.5)DALL-E (달리)DeepSeek (딥시크)deepseek-chat (딥시크 챗)DeepSeek R1(딥시크 R1)DeepSeek Reasoner (딥시크 리저너)DeepSeek-V3.2-Speciale (딥시크 V3.2-Speciale)DeepSeek V4 (딥시크 V4)FLUX.1 (플럭스 원)Gemini(제미니)Gemini 2.5 (제미나이 2.5)Gemini 2.5 Flash (제미나이 2.5 플래시)Gemini 2.5 Pro (제미나이 2.5 프로)Gemini Embedding(제미니 임베딩)Gemini Embedding 2(제미니 임베딩 2)Gemini Omni(제미니 옴니)Gemma (젬마)Gemma 3(젬마 3)Gemma 4(젬마 4)Gemma-4-26B-A4B-NVFP4(젬마 4 26B A4B NVFP4)GLM (지엘엠)GLM 5(지엘엠 5)GLM 5.1(지엘엠 5.1)GPT-2 (지피티-2)GPT-3 (지피티-3)GPT-3.5 (지피티-3.5)GPT-4 (지피티-4)GPT-4.1 (지피티 4.1)GPT-4o(지피티-4o)gpt-4o-mini (지피티-4o 미니)gpt-4o-mini-2024-07-18 스냅샷 GPT-5 (지피티-5)GPT-5.5 Instant (지피티 5.5 인스턴트)GPT-5-Codex (지피티 5 코덱스)GPT-5.1 (지피티 5.1)gpt-5.1-chat-latest (지피티 5.1 챗 레이티스트)GPT-5.1 Codex (지피티 5.1 코덱스)GPT-5.1 Codex mini (지피티 5.1 코덱스 미니)gpt-5.2 gpt-5.2-2025-12-11 (GPT-5.2 고정 스냅샷)gpt-5.2-chat-latest (지피티 5.2 챗 레이티스트)GPT-5.2 Pro (지피티 5.2 프로)GPT-5.2 Pro 2025-12-11 스냅샷 (지피티 5.2 프로 고정 버전)GPT-5.2 Thinking (지피티 5.2 씽킹)GPT-5.3 (지피티 5.3)gpt-5.3-chat-latest (지피티 5.3 챗 레이티스트)GPT-5.3 Instant (GPT-5.3 인스턴트)GPT-5.4 (지피티 5.4)gpt-5.4-2026-03-05 (GPT-5.4 고정 스냅샷)GPT-5.4 API (지피티 5.4 API)GPT-5.4-Cyber (지피티 5.4 사이버)GPT-5.4 Mini (지피티 5.4 미니)GPT-5.4 Pro (지피티 5.4 프로)GPT-5.4 Thinking (지피티 5.4 씽킹)GPT-5.5 (지피티 5.5)GPT-5.5 Instant (지피티 5.5 인스턴트)GPT-5.5 Pro (GPT-5.5 프로)GPT-5.5 Thinking (지피티 5.5 씽킹)GPT Image(지피티 이미지)gpt-image-2 (지피티 이미지 2)gpt-oss(지피티 오에스에스)GPT-OSS 20B(오픈 웨이트 모델)GPT-Rosalind(지피티-로절린드)Grok (그록)Imagen (이마젠)K2.5 (키미 K2.5)Kimi(키미)Kimi K2 (키미 K2)Kimi K2.6 (키미 K2.6)Llama (라마)Lyria (리리아)M2.7(엠투점칠)MiMo-V2.5-ASR (샤오미 음성인식 모델)MiniMax M2.7(미니맥스 M2.7)Mistral(미스트랄 모델 계열)Mistral AI (미스트랄 AI)Mixtral(믹스트랄)model="deepseek-reasoner" (딥시크 리저너 모델값)Mythos Preview (마이토스 프리뷰)Nano Banana(나노 바나나)Nemotron 3 Nano Omni (네모트론 3 나노 옴니)Nemotron OCR v2 (네모트론 OCR v2)o1(OpenAI 추론 모델)o3 (오쓰리)Phi (파이)Privacy Filter(프라이버시 필터)Qwen (큐원)큐웬 3.5(Qwen 3.5)Qwen3 (큐원3)Qwen3-14B (큐원3 14B)Qwen3-14B-GGUF (큐원3 14B GGUF)Qwen3-30B-A3B (큐웬3 30B A3B)Qwen3.5-122B-A10B (122B MoE 대체형)Qwen3.5-27B (큐웬3.5-27B)Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled (쿠엔3.5-27B 클로드 4.6 오퍼스 리즈닝 디스틸드)Qwen3.5-35B-A3B (큐원 3.5-35B-A3B)Qwen3.5-9B (큐원 3.5-9B)Qwen3.5-9B BF16 (큐원 3.5-9B BF16)Qwen3.6 (큐원 3.6)Qwen3.6-27B (큐원 3.6-27B)Qwen3.6 27B FP8 (큐원 3.6 27B FP8)Qwen3.6-35B-A3B (큐원 3.6-35B-A3B)Sora (소라)Stable Diffusion(스테이블 디퓨전)DeepSeek V2.5 (딥시크 V2.5)DeepSeek V3.2 (딥시크 V3.2)V3.2-Speciale (딥시크 V3.2-Speciale)V4-Flash (딥시크 V4-Flash)V4 Pro (딥시크 V4 프로)Veo (비오)Whisper (위스퍼)

24GB GPU(24GB VRAM 카드)A3B (활성 파라미터 3B 표기)A4B(활성 파라미터 4B)A4B MoE(A4B 전문가 혼합 표기)A4B NVFP4(A4B 엔브이FP4)AI Agent (AI 에이전트)Google Cloud Agent Gateway (에이전트 게이트웨이)Agent Identity(에이전트 신원)Agent Observability(에이전트 관측성)AI Mode (AI 모드)Alignment(정렬)안드로이드(Android)Anthropic(앤트로픽)API (애플리케이션 프로그래밍 인터페이스)Apple Silicon (애플 실리콘)Attention (어텐션)AWS Bedrock(AWS 베드록)Bedrock(베드록)BF16 (브레인 플로팅 포인트 16)BF16 KV (BF16 키-값 캐시)Blackwell (NVIDIA GPU 아키텍처)BrowseComp(브라우즈컴프)chat-latest (챗 레이티스트)ChatGPT Instant (챗지피티 인스턴트)CLI(명령줄 인터페이스)Cloud (클라우드)Coding Agent(코딩 에이전트)Context(컨텍스트)Context Window(컨텍스트 윈도우)CUDA(쿠다)CUDA 12.9(쿠다 12.9)dataset(데이터셋)Deep Research (딥 리서치)Developer Tools(개발자 도구)DFlash (디플래시)Diffusion Model(확산 모델)E2B (이투비)E4B (이포비)Embedding (임베딩)Enterprise(엔터프라이즈)Enterprise AI(엔터프라이즈 AI)F1 96(에프원 96 표기)F32 (32비트 부동소수점)File Search(파일 검색)FIM completion(중간 채우기 완성)Flash(플래시)FP16 (반정밀도 부동소수점)FP4 (4비트 부동소수점 포맷)FP4 Indexer(FP4 인덱서)FP8 (8비트 부동소수점 포맷)FP8 E4M3(8비트 E4M3 포맷)FP8 KV (FP8 키-값 캐시)FP8 양자화 가중치 FP8 Tensor Core(FP8 텐서 코어)Gated DeltaNet(게이티드 델타넷)GDDR7(그래픽 DRAM 7세대)GDDR7 ECC(오류 수정 GDDR7 메모리)Gemini Intelligence (제미니 인텔리전스)GPQA Diamond (지피큐에이 다이아몬드)GPT (생성형 사전학습 트랜스포머)GPU (그래픽 처리 장치)GPU VRAM(GPU 전용 비디오 메모리)GUI(그래픽 사용자 인터페이스)Hallucination (환각)HTTP API(HTTP 호출 인터페이스)Hugging Face Hub(허깅 페이스 허브)HumanEval(휴먼이밸)IDE (통합 개발 환경)Image Generation(이미지 생성)Inference (추론)Instant(인스턴트)INT4 (4비트 정수 정밀도)INT8 (8비트 정수 정밀도)K2.6 (키미 K2.6 줄임말)KV Cache (KV 캐시)Language Model (언어 모델)Linux(리눅스)LiveCodeBench(라이브코드벤치)LLM (거대 언어 모델)Local LLM (로컬 LLM)Long Context (긴 문맥)M5 Max(M5 맥스)M5 Max 64GB(M5 맥스 64GB)Mac(맥)Managed Agents(관리형 에이전트)Mega MoE(메가 MoE)Memory(메모리)Mixture of Experts(전문가 혼합)MMLU(엠엠엘유)MMLU Pro(엠엠엘유 프로)모델 Multimodal AI(멀티모달 AI)Mythos (마이토스)Nano Omni (나노 옴니)Nemotron(네모트론)NL2Repo 39.8(엔엘투레포 39.8)Nous Research (누스 리서치)NVFP4 (NVIDIA FP4 포맷)NVIDIA GPU(엔비디아 GPU)NVLink(엔비디아 GPU 인터커넥트)OAuth(권한 위임)OCR (광학 문자 인식)On-device AI(온디바이스)Open-weight(오픈 웨이트)openai-agents>=0.14.0(오픈AI 에이전트 SDK 0.14.0 이상)OpenAI-compatible(OpenAI 호환)p95(95번째 백분위 지연시간)Personal Intelligence(퍼스널 인텔리전스)PrivateLink(프라이빗링크)Project Glasswing (프로젝트 글래스윙)PyPI (파이썬 패키지 인덱스)Python (파이썬)Q8 KV (Q8 키-값 캐시)Qwen3.6-35B-A3B Benchmarks (큐웬3.6 벤치마크)RAM (시스템 메모리)Reasoning Model (추론 모델)reasoning content(추론 내용)Reasoning Model (추론 모델)RTX PRO (엔비디아 전문가용 GPU 계열)SaaS(서비스형 소프트웨어)Search (검색)Small Language Model(소형 언어 모델)SWE-bench(깃허브 이슈 해결 벤치마크)SWE-Bench Pro(소프트웨어 엔지니어링 에이전트 벤치마크)SWE-bench Verified (스위벤치 베리파이드)SWE Multilingual(다국어 소프트웨어 엔지니어링 벤치마크 표기)SWE-Pro(에스더블유이 프로 표기)SwiGLU(스위글루)Tensor Core(텐서 코어)Terminal-Bench (터미널 벤치)Terminal-Bench 2.0(터미널 벤치 2.0)Thinking (씽킹)tok/s(초당 토큰)Token (토큰)Token Plan(토큰 플랜)TPU(텐서 처리 장치)Transformer (트랜스포머)Trusted Access (신뢰 기반 접근)TypeScript(타입스크립트)Vertex AI (버텍스 AI)VIBE-Pro(바이브 프로)Video Generation(영상 생성)Vision-Language Model (비전-언어 모델)VRAM(비디오 메모리)Model Weights(웨이트)Windows(윈도우)Word(워드 문서)Xiaomi MiMo(샤오미 미모)YaRN (야른)

한 줄 정의

GPU VRAM은 로컬 LLM을 돌릴 때 GPU 쪽에 실제로 남는 빠른 메모리 예산을 뜻해. VRAM이 그래픽카드의 전용 메모리라는 일반 하드웨어 설명이라면, GPU VRAM이라는 표현은 보통 “이 모델 가중치와 키-값 캐시(KV cache)와 작업 버퍼를 GPU에 어디까지 남길 수 있나”를 묻는 운영 문맥에 더 가까워.

그래서 이 말은 단순한 스펙표 숫자보다 배치 문제에 가깝다. GPU가 칩 전체를 가리키는 말이고 VRAM이 그 칩 옆의 전용 메모리 자체를 가리킨다면, GPU VRAM은 그중에서도 추론에서 실제로 남는 몫을 읽는 표현이야. 또 양자화는 이 예산을 줄이거나 늘리는 방법이고, context-window는 그 예산을 계속 먹는 쪽이야. 같은 24GB나 32GB 카드라도 이 조건과 런타임의 오프로드(offload) 방식에 따라 “된다/안 된다” 경계가 달라진다.

비교축을 더 짧게 잡으면 이래. local-llm은 배포 방식이고, GPU VRAM은 그 배포에서 먼저 막히는 하드웨어 예산이야. llama.cpp는 그 예산을 실제로 쪼개고 넘기는 런타임이고, quantization은 같은 예산 안에 더 큰 모델을 넣으려는 압축 방식이야.

어떻게 작동하나

로컬 추론에서는 먼저 모델 가중치 일부나 전부가 GPU VRAM에 올라가고, 생성 중에는 키-값 캐시(KV cache)와 중간 작업 버퍼가 같은 공간을 같이 먹어. 예전에는 이 숫자를 거의 “모델 파일이 전부 들어가야 하는가” 기준으로 읽는 경우가 많았는데, 지금은 그 해석이 자주 너무 단순해.

공식 llama.cpp 문서를 보면 --fit은 기본값이 on이고, unset된 인자를 device memory에 맞게 조정하게 되어 있어. 쉽게 말해 auto-fit은 장치 메모리에 맞게 컨텍스트와 배치 같은 미설정 값을 자동으로 조정하는 기능이야. --fit-target 기본값은 1024 MiB, --fit-ctx 기본값은 4096이라서, 런타임이 여유 공간과 최소 컨텍스트를 같이 보며 타협선을 잡는 구조야. 같은 문서의 tensor-split은 모델 텐서를 여러 GPU에 나눠 올리는 방식이고, split-mode는 레이어와 KV를 어떤 식으로 분할할지 고르는 경로를 제공해. 즉 GPU VRAM은 “넘치면 끝”이라기보다, GPU 안에 무엇을 남기고 무엇을 다른 장치로 밀어낼지 정하는 빠른 티어라고 보는 편이 맞아.

llm-server 같은 상위 도구는 이 감각을 더 노골적으로 드러내. README는 VRAM 크기가 제각각인 여러 NVIDIA GPU를 가중치를 달리해 배치하고, MoE(Mixture of Experts, 전문가 혼합) 자동 배치는 실제로 측정한 VRAM을 기준으로 시작한 뒤 최적화를 캐시한다고 적어. 여기서 GPU VRAM은 단순 용량표가 아니라, 모델 분배와 속도 튜닝의 입력값이 된다.

왜 중요한가

이 표현이 중요한 이유는 로컬 추론에서 가장 흔한 오해를 바로 건드리기 때문이야. LocalLLaMA의 한 사용자는 32GB VRAM이면 보통 20GB 안팎 모델까지만 실용적일 거라고 생각했는데, llama.cpp의 auto-fit인 --fit으로 Qwen3.6 Q8을 256K 컨텍스트에서 돌렸고 57 t/s가 나왔다고 적었어. 원문도 “weights alone are bigger than my VRAM”이라고 적고 있어서, GPU VRAM을 모델 파일 크기와 1대1로 묶는 읽기가 언제 틀리는지 잘 보여 줘.

다른 사례에서는 multi-GPU와 튜닝이 GPU VRAM의 의미를 더 바꿔. llm-server 작성자는 3090 Ti + 4070 + 3060 + 128GB RAM 조합에서 Qwen3.5-27B Q4_K_M이 18.5에서 40.05 tok/s, 122B 모델이 4.1에서 17.47 tok/s로 올랐다고 보고했어. 그리고 댓글에서는 tensor split, 그러니까 모델 텐서를 여러 GPU에 나눠 올리는 방식을 실제로 측정한 VRAM을 기준으로 보수적으로 채운 뒤 더 조여 간다고 설명했어. 숫자 자체보다 중요한 건, GPU VRAM이 한 장짜리 한계선이 아니라 여러 GPU와 RAM 사이에서 조정되는 예산으로 다뤄진다는 점이야.

실무 장면도 두 갈래로 자주 갈린다. 하나는 작은 개인 장비에서 더 큰 모델을 억지로 돌릴 수 있느냐의 문제고, 다른 하나는 여러 GPU가 있어도 카드마다 VRAM과 대역폭이 달라서 어떤 분할이 가장 빠르냐의 문제야. 둘 다 결국 GPU VRAM을 독립 숫자보다 배치와 병목의 언어로 읽게 만든다.

주의해서 볼 점

첫째, GPU VRAM은 VRAM과 같은 물리 자원을 가리키지만, 기사나 커뮤니티에서 이 표현이 나오면 뜻이 더 좁아진다. 대개는 “GPU 전용 메모리가 몇 GB냐”보다 “그중 얼마를 모델 가중치, 키-값 캐시(KV cache), 버퍼, 다른 앱이 나눠 쓰느냐”를 묻는 말이야.

둘째, offload가 가능하다고 해서 GPU VRAM이 덜 중요해지는 건 아니야. VRAM을 넘는 부분을 RAM이나 다른 GPU로 넘기면 실행은 될 수 있어도, 첫 토큰 지연시간이나 긴 문맥 안정성은 크게 달라질 수 있어. 된다와 쓸 만하다는 다른 말이야.

셋째, 이 숫자를 읽을 때는 최소한 아래 네 가지를 같이 봐야 해.

모델 양자화가 Q4인지 Q8인지
컨텍스트가 4K인지 256K인지
KV cache 타입을 건드렸는지
런타임이 --fit, tensor-split, CPU offload, multi-GPU split을 어떻게 처리하는지

이 조건이 빠진 GPU VRAM 숫자는 방향만 보여 주는 반쪽 정보에 가깝다.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-03 KST

검증 생성: AI + 편집 검토 · 2026-05-03 상태: 통과

통과 원문 대조

GPU VRAM을 일반 그래픽 메모리 설명이 아니라 로컬 추론에서 실제 적재 예산을 읽는 말로 좁혀도, 공식 llama.cpp 문서와 커뮤니티 사례가 같은 방향을 가리켜.

독자 문제 대조: 이 항목은 VRAM 일반론보다 '[로컬 LLM](/ko/wiki/local-llm/)을 내 GPU에 어디까지 올릴 수 있나'를 읽는 실무 표현으로 잡았어.
llama.cpp 문서는 `--fit`을 'device memory에 맞게 unset arguments를 조정하는 옵션'으로 설명하고 기본값을 on으로 적어, GPU 메모리를 고정 벽보다 조정 가능한 예산으로 다뤄.
같은 문서는 `split-mode`와 `tensor-split`으로 레이어와 KV를 여러 GPU에 나누는 경로를 적고, 메인 README는 total VRAM보다 큰 모델도 CPU+GPU hybrid inference로 부분 가속할 수 있다고 설명해.
llm-server README는 VRAM 크기가 제각각인 여러 NVIDIA GPU를 가중치를 달리해 배치하고, MoE 자동 배치는 실제로 측정한 VRAM을 보고 최적화한다고 적어 본문 정의와 맞아.

통과 교차 검증 검증 출처 5

공식 문서와 커뮤니티 보고를 나눠 보니, GPU VRAM은 하드웨어 스펙 그 자체보다 런타임이 어떻게 배치하느냐까지 포함해 읽어야 한다는 점이 공통으로 확인돼.

비교 기준: 공식 문서는 기능 존재와 기본 동작을 확인하고, Reddit 글은 사용자가 체감한 경계가 어디서 바뀌는지 보는 용도로만 썼어.
llama.cpp 공식 문서는 `--fit`, `fit-target`, `fit-ctx`, `tensor-split` 같은 메모리 관련 플래그를 직접 적고 있어서, offload와 여유 공간 관리가 실제 기능이라는 점을 확인해.
llm-server README는 'VRAM+RAM 예산에 맞는 양자화 추천'과 똑똑한 멀티 GPU 배치를 내세워, GPU VRAM을 RAM과 분리된 단독 숫자보다 합산 배치 문제로 읽게 만들어.
Reddit의 auto-fit 사례는 32GB VRAM에서 Qwen3.6 Q8과 256K context를 돌렸다고 보고하고, 다른 글은 3090 Ti + 4070 + 3060 조합에서 tensor split과 튜닝으로 속도 개선을 제시해 실제 사용 맥락을 보완해.

통과 수치 검증

본문에 남긴 숫자는 공식 기본값과 사용자 보고 수치를 섞지 않고 구분해서 적었어.

llama.cpp server README는 `--fit-target` 기본값을 `1024` MiB, `--fit-ctx` 기본값을 `4096`으로 적어. 본문에서는 '메모리 여유와 최소 컨텍스트를 자동 조정하는 옵션이 있다'는 근거로만 썼어.
auto-fit Reddit 글의 원문은 `32GB` VRAM, Qwen3.6 Q8, `256k` context, `57 t/s`를 사용자 체감 사례로 보고해. 본문에서도 사용자 보고 수치로만 제한했어.
같은 스레드 댓글은 `24GB` 7900 XTX에서 35B Q3_K_M와 `256k` context, 약 `84 tok/s`를 언급하지만, 이건 댓글 수준 사례라 본문 핵심 주장으로 승격하지 않았어.
ai-tune Reddit 글은 Qwen3.5-27B Q4_K_M이 `18.5`에서 `40.05 tok/s`, 122B가 `4.1`에서 `17.47 tok/s`로 올라갔다고 적어. 본문은 이 수치를 재현 보장 없는 작성자 측정값으로만 다뤄.

통과 비판 검토

GPU VRAM을 '모델 파일 크기와 1대1 대응하는 절대 장벽'으로 읽는 오해를 줄이고, 반대로 offload가 있으니 아무 장비나 된다는 과장도 막았어.

GPU VRAM이 모자라도 [llama.cpp](/ko/wiki/llama.cpp/)의 `--fit`이나 CPU+GPU hybrid inference로 일부는 돌아갈 수 있지만, 지연시간과 안정성은 따로 봐야 한다고 적었어.
Q8 모델 가중치가 VRAM을 넘겨도 된다는 사례를 넣되, 그 결과를 모든 GPU나 모든 [런타임](/ko/wiki/runtime/)의 보편 규칙처럼 쓰지 않았어.
GPU VRAM은 [VRAM](/ko/wiki/vram/) 일반 정의와 닿아 있지만, 기사나 위키에서 이 표현이 나오면 보통 [양자화](/ko/wiki/quantization/), [context-window](/ko/wiki/context-window/), KV cache, tensor split을 같이 읽어야 한다는 범위 제한을 남겼어.

GPU VRAM은 성능 점수라기보다, 뭘 GPU에 남기고 뭘 RAM이나 다른 GPU로 밀어낼지 보는 예산표에 더 가까워.
같은 24GB나 32GB라도 양자화, KV cache, 컨텍스트, multi-GPU 여부가 바뀌면 체감 한계선이 꽤 달라져.

출처: llama.cpp server README , ggml-org/llama.cpp , raketenkater/llm-server , r/LocalLLaMA — auto fit works much better than expected , r/LocalLLaMA — the LLM tunes its own llama.cpp flags