이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

Qwen3.6 35B-A3B, ThinkPad의 내장 GPU 780M에서 20 tok/s 나왔어

r/LocalLLaMA에 ThinkPad T14 Gen 5(8840U + Radeon 780M iGPU + 64GB DDR5)에서 Qwen3.6 35B-A3B Q6_K를 vulkan으로 돌린 결과가 올라왔어. pp 250+ tok/s, tg 20 tok/s. dGPU 없이 노트북 한 대로 35B MoE를 돌릴 수 있다는 신호야.

무슨 일이 일어났나

r/LocalLLaMA에 [ThinkPad T14 Gen 5에서 Qwen3.6 35B-A3B를 돌린 벤치마크](https://www.reddit.com/[r/LocalLLaMA](/ko/wiki/localllama/)/comments/1su9yva/qwen36_35ba3b_is_quite_useful_on_780m_igpu/)가 올라왔어. 외장 GPU 없이 노트북 한 대만 썼어. 구성은:

CPU/GPU: AMD Ryzen 8840U + Radeon 780M iGPU
메모리: 64GB DDR5 5600 MT/s
양자화: Q6_K (AesSedai/Qwen3.6-35B-A3B-GGUF)
백엔드: llama.cpp vulkan 빌드

결과는 프롬프트 처리(pp) 250+ tok/s, 토큰 생성(tg) 20 tok/s. 35B MoE 모델을 내장 GPU에서 돌렸다는 게 핵심 포인트야.

왜 가능했나

Qwen3.6 35B-A3B는 MoE 구조라 총 35B 파라미터지만 활성 파라미터는 3B야. 한 번에 굴리는 가중치 양이 적어서 메모리 대역폭이 부족한 iGPU에서도 어느 정도 굴러가. 64GB DDR5를 시스템 메모리로 잡고 vulkan 백엔드로 넘기면 GPU 전용 VRAM 없이도 GGUF 모델을 로드할 수 있어.

같은 모델을 dGPU로 돌리면 어떻게 나올까. RTX 3090 기준 InsiderLLM 가이드는 UD-Q4_K_XL에서 101 tok/s를 기록했어. iGPU 20 tok/s는 그 1/5 수준이야.

어떤 의미인가

로컬 LLM을 굴리는데 RTX 4090이나 5080이 꼭 필요했던 진입 장벽이 한 단계 낮아져. 64GB RAM ThinkPad가 있다면 적어도 35B-A3B급 코딩 어시스턴트를 데모용으로는 돌려볼 수 있다는 거야. 회의실 노트북에서 데이터를 외부 API에 안 보내고 코드 리뷰를 시킨다거나, 출장 중 비행기에서 자료 정리를 시킨다거나.

주의할 점

20 tok/s는 짧은 대화엔 괜찮지만, 대량 코드 자동화나 에이전트 루프엔 부족해. 단일 사용자 1회 측정이라 다른 8840U 환경에서 같은 수치가 나오리란 보장도 없어. 그리고 64GB DDR5라는 게 일반적인 노트북 사양은 아니야 — 32GB 환경에서는 양자화를 더 낮춰야 모델이 메모리에 들어가. 본인 노트북에 어울리는 양자화는 양자화 레벨 한 단계씩 내려가며 직접 재보는 게 안전해.

태그

#qwen#llama-cpp#igpu#amd#thinkpad

포맷 v2 가이드 news 3.1.2

팩트 체크

통과 · 2026-04-27 KST

검증 생성: AI + 편집 검토 · 2026-04-27 상태: 통과

통과 원문 대조

Reddit 원글의 하드웨어·tok/s 수치를 본문과 일치 확인.

ThinkPad T14 Gen 5: AMD Ryzen 8840U + Radeon 780M iGPU + 64GB DDR5 5600 MT/s
Q6_K 양자화, vulkan 백엔드
프롬프트 처리 250+ tok/s, 토큰 생성 20 tok/s

통과 교차 검증 검증 출처 3

Reddit 원글 외 가이드·dGPU 벤치마크와 교차로 비교.

InsiderLLM: Qwen3.6 35B-A3B의 MoE 활성 파라미터(3B)와 메모리 요구
Amine Raji: 24GB VRAM dGPU에서의 동작 검증
iGPU 결과는 다른 dGPU 결과와 절대값을 비교할 수 있는 기준이 됨

통과 수치 검증

tok/s 수치와 메모리 요구를 정량 확인.

RTX 3090 dGPU: 101 tok/s (UD-Q4_K_XL 기준)
Radeon 780M iGPU: 20 tok/s — dGPU의 약 1/5 속도
활성 파라미터 3B라 35B 풀모델이 아닌 일부만 가동

통과 비판 검토

iGPU 결과의 한계와 64GB 시스템 메모리 의존을 표시.

iGPU는 시스템 메모리(64GB DDR5)를 그대로 사용 — VRAM 없는 환경에서 가능한 셋업
20 tok/s는 대화에 충분하지만 대량 코딩 자동화엔 부족
Q6_K 양자화 기준이라 더 낮은 양자화에서 수치가 달라질 수 있음

단일 사용자 1회성 측정이라 표본 크기는 1 — 다른 8840U 셋업에서 같은 수치 나오는지 별도 확인 필요
iGPU + 64GB DDR5 셋업 자체가 일반적이지 않아 — 32GB 환경에서는 모델 크기 한계로 다른 결과

출처: r/LocalLLaMA — Qwen3.6 35B-A3B on 780m iGPU , InsiderLLM — Qwen 3.6 Complete Guide , Amine Raji — Qwen3.6 on 24GB VRAM