이 용어는 어디까지 신뢰할 수 있나요?

AI 문맥에서 RAM이 자주 보이는 곳은 로컬 LLM이야. 모델 가중치, KV cache, 입력 컨텍스트, 실행 중인 브라우저와 IDE가 모두 메모리 예산을 먹는다. 특히 VRAM에 다 못 올린 모델 일부가 시스템 RAM과 CPU 쪽으로 넘어오면, “돌아가긴 하는데 답이 느린” 상태가 쉽게 나와.

어떻게 작동하나

일반 앱에서는 저장공간에 있던 프로그램과 파일 일부가 RAM으로 올라오고, CPU가 거기서 필요한 데이터를 읽어 작업해. TechTarget의 RAM 설명은 RAM을 현재 사용 중인 운영체제, 프로그램, 데이터를 프로세서가 빠르게 쓰도록 붙잡아 두는 하드웨어로 설명해. 전원을 끄면 내용이 사라지는 휘발성 메모리라서, SSD처럼 오래 보관하는 곳은 아니야.

로컬 LLM에서는 이 차이가 더 거칠게 체감돼. GPU가 있는 데스크톱은 모델의 큰 덩어리를 먼저 VRAM에 올리고, 부족한 레이어나 보조 버퍼가 시스템 RAM과 CPU 쪽으로 밀릴 수 있어. llama.cpp는 양자화와 CPU+GPU 하이브리드 추론을 지원한다고 적고 있어. 이 말은 “VRAM이 부족해도 일부는 시스템 RAM으로 버틸 수 있다”는 뜻이지만, 동시에 “그만큼 느려질 수 있다”는 뜻이기도 해.

Apple Silicon은 표가 조금 달라. Apple은 M3 계열의 unified memory를 CPU와 GPU가 같은 데이터 풀에 접근하는 구조로 설명하고, M3 Max에서 최대 128GB까지 이야기해. 그래서 Mac의 64GB나 128GB unified memory는 일반 PC의 시스템 RAM 64GB와 전용 그래픽카드 VRAM 24GB를 단순히 같은 칸에 놓고 비교하기 어렵다. 같은 숫자라도 CPU, GPU, 메모리 대역폭, Metal이나 MLX 같은 런타임 지원이 같이 붙어야 의미가 생겨.

왜 중요한가

RAM은 모델 선택에서 “가능”과 “쾌적”을 갈라. SitePoint의 2026년 로컬 LLM 하드웨어 가이드는 70B 모델 예시에서 FP16 파일 크기를 약 140GB, Q4_K_M을 약 40GB로 잡아. 또 모델이 VRAM에 다 들어가지 않으면 레이어가 시스템 RAM으로 넘어갈 수 있고, 64GB 이상 DDR5가 안전망은 되지만 offload된 레이어는 속도를 크게 떨어뜨린다고 설명해.

실무 장면은 두 가지야. 첫째, Ollama나 llama.cpp로 코딩 보조 모델을 돌릴 때야. 16GB RAM 노트북에서 브라우저, IDE, Docker, 로컬 모델을 같이 켜면 모델 파일이 작아도 운영체제 swap이 튀기 쉽다. 이때는 더 작은 모델, 낮은 비트 양자화, 짧은 컨텍스트, GPU offload 조절 중 하나를 고르게 돼.

둘째, 로컬 문서 검색이나 사내 실험처럼 데이터가 밖으로 나가면 곤란한 작업이야. AI Tool Discovery의 r/LocalLLaMA 분석은 LocalLLaMA 문맥에서 로컬 LLM을 고르는 이유로 프라이버시, 비용, rate limit 회피, 오프라인 사용을 나눠 적고, CPU-only 실행을 2-5 tok/s 수준의 느린 경험으로 설명해. 이 숫자는 커뮤니티 요약이라 절대 기준은 아니지만, RAM만 넉넉하고 GPU 예산이 약하면 답변 속도가 업무 흐름을 끊을 수 있다는 감각은 잘 보여줘.

주의해서 볼 점

RAM이 많다고 모델이 더 똑똑해지는 건 아니야. RAM은 작업 공간이고, 답변 품질은 모델 가중치, 학습 데이터, 양자화 손실, 추론 런타임, 프롬프트 품질이 더 크게 좌우해. 128GB RAM 장비가 24GB VRAM 장비보다 늘 좋은 답을 만든다는 식으로 읽으면 금방 틀려.

또 RAM과 Memory는 AIKI 안에서도 다른 말로 쓰일 수 있어. RAM은 하드웨어 메모리이고, Memory는 에이전트가 이전 대화나 작업 결과를 저장했다가 다시 꺼내 쓰는 설계야. “메모리가 부족하다”가 하드웨어 RAM 부족인지, 컨텍스트가 부족한 건지, 에이전트 기억 설계 문제인지를 분리해야 해.

커뮤니티 실험은 재미있지만 범위를 좁혀 읽어야 해. r/LocalLLaMA의 한 글은 1998년 iMac G3에서 32MB RAM, 233MHz PowerPC 750, Mac OS 8.5, 약 1MB TinyStories 체크포인트로 작은 언어 모델을 돌린 사례를 보여 줬어. 흥미로운 데모지만, 7B나 70B급 로컬 LLM을 32MB RAM에서 실무로 돌릴 수 있다는 뜻은 아니야. 숫자가 작을수록 더더욱 모델 크기, 출력 길이, 런타임 제약을 같이 봐야 해.

RAM 요구사항을 읽을 때는 이 순서가 덜 헷갈려.

모델 파일 크기와 양자화 형식을 먼저 봐. Q4와 FP16은 필요한 메모리가 크게 달라.
VRAM에 어느 레이어까지 올라가는지 확인해. VRAM 밖으로 밀리면 시스템 RAM과 CPU가 받아야 해.
목표 컨텍스트 길이를 같이 봐. 긴 입력은 KV cache 부담을 키워.
실행 중인 앱도 더해. IDE, 브라우저, Docker, 화면 녹화가 같은 RAM을 먹는다.
Mac의 unified memory와 PC의 DDR RAM, 전용 VRAM을 같은 숫자로만 비교하지 마. 구조가 다르면 병목도 달라.

RAM (시스템 메모리)

전체 AI 기술 맵에서의 위치

한 줄 정의

어떻게 작동하나

왜 중요한가

주의해서 볼 점

관련 용어