무슨 일이 일어났나
r/LocalLLaMA에 [ThinkPad T14 Gen 5에서 Qwen3.6 35B-A3B를 돌린 벤치마크](https://www.reddit.com/[r/LocalLLaMA](/ko/wiki/localllama/)/comments/1su9yva/qwen36_35ba3b_is_quite_useful_on_780m_igpu/)가 올라왔어. 외장 GPU 없이 노트북 한 대만 썼어. 구성은:
- CPU/GPU: AMD Ryzen 8840U + Radeon 780M iGPU
- 메모리: 64GB DDR5 5600 MT/s
- 양자화: Q6_K (AesSedai/Qwen3.6-35B-A3B-GGUF)
- 백엔드: llama.cpp vulkan 빌드
결과는 프롬프트 처리(pp) 250+ tok/s, 토큰 생성(tg) 20 tok/s. 35B MoE 모델을 내장 GPU에서 돌렸다는 게 핵심 포인트야.
왜 가능했나
Qwen3.6 35B-A3B는 MoE 구조라 총 35B 파라미터지만 활성 파라미터는 3B야. 한 번에 굴리는 가중치 양이 적어서 메모리 대역폭이 부족한 iGPU에서도 어느 정도 굴러가. 64GB DDR5를 시스템 메모리로 잡고 vulkan 백엔드로 넘기면 GPU 전용 VRAM 없이도 GGUF 모델을 로드할 수 있어.
같은 모델을 dGPU로 돌리면 어떻게 나올까. RTX 3090 기준 InsiderLLM 가이드는 UD-Q4_K_XL에서 101 tok/s를 기록했어. iGPU 20 tok/s는 그 1/5 수준이야.
어떤 의미인가
로컬 LLM을 굴리는데 RTX 4090이나 5080이 꼭 필요했던 진입 장벽이 한 단계 낮아져. 64GB RAM ThinkPad가 있다면 적어도 35B-A3B급 코딩 어시스턴트를 데모용으로는 돌려볼 수 있다는 거야. 회의실 노트북에서 데이터를 외부 API에 안 보내고 코드 리뷰를 시킨다거나, 출장 중 비행기에서 자료 정리를 시킨다거나.
주의할 점
20 tok/s는 짧은 대화엔 괜찮지만, 대량 코드 자동화나 에이전트 루프엔 부족해. 단일 사용자 1회 측정이라 다른 8840U 환경에서 같은 수치가 나오리란 보장도 없어. 그리고 64GB DDR5라는 게 일반적인 노트북 사양은 아니야 — 32GB 환경에서는 양자화를 더 낮춰야 모델이 메모리에 들어가. 본인 노트북에 어울리는 양자화는 양자화 레벨 한 단계씩 내려가며 직접 재보는 게 안전해.