무슨 일이 일어났나
로컬 LLM 커뮤니티에서 32GB VRAM GPU로 Qwen3.6 35B Q8 모델을 256K 컨텍스트로 돌렸다는 경험이 올라왔어. 키는 llama.cpp의 --fit 플래그야. 이 플래그를 켜면 모델 가중치가 VRAM을 초과하는 부분을 자동으로 CPU RAM으로 오프로드해주거든. 기존에 이 유저는 “32GB VRAM이면 20GB 이하 모델, 즉 Qwen3.5 27B Q4나 Q6가 한계”라고 생각했대.
왜 이게 되나
Qwen3.6 35B Q8는 가중치만 약 37GB야. 32GB VRAM에 다 안 들어가. 예전에는 모든 레이어가 VRAM에 들어가야 2 토큰/초 이상 속도가 나온다고 알려져 있었어. --fit 플래그는 이 전제를 깨는데, 일부 레이어를 CPU RAM에 올리고 GPU-CPU 전송 오버헤드를 최소화해서 실용적인 속도를 유지해. 256K 컨텍스트에서 작동한다는 게 더 흥미로운 부분이야 — 긴 문서 처리도 가능하다는 얘기거든.
어떤 의미인가
로컬 LLM의 “VRAM 장벽”이 생각보다 유연하다는 거야. 고사양 GPU가 없어도 RAM이 넉넉하면 더 큰 모델을 돌릴 수 있어. 단, CPU 오프로드는 순수 VRAM 실행보다 느리고, 실제 속도는 하드웨어 구성마다 크게 달라져. 빠른 시안 작업보다는 긴 문서 분석처럼 속도보다 품질이 중요한 작업에 맞아.