이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

Qwen 3.5-9B, 12GB VRAM에서 80 토큰/초 + 128K 컨텍스트 돌아가

Alibaba의 Qwen 3.5-9B가 RTX 3060 12GB에서 80 토큰/초, 128K 컨텍스트를 지원한다는 커뮤니티 결과가 나왔어. MoE 변형인 Qwen 3.6-35B-A3B-MTP도 12GB VRAM에서 실용적으로 돌아가고 있어.

무슨 일이 있었나

Alibaba Qwen 팀의 Qwen 3.5-9B가 HuggingFace에 올라오면서 r/LocalLLaMA에서 실제 돌려보는 결과가 쏟아지고 있어. RTX 3060 12GB 기준으로 80 토큰/초, 128K 컨텍스트를 지원하는 셈이거든 — 소비자용 GPU치고 상당한 수치야.

뭐가 가능해졌나

Qwen 3.5 시리즈에서 실제로 돌려보는 커뮤니티가 많이 언급하는 게 두 가지야.

Qwen 3.5-9B (덴스 모델): 12GB VRAM에서 80 tok/sec, 128K 컨텍스트. 일반 코딩·문서 작업에 충분한 속도야.
Qwen 3.6-35B-A3B-MTP (MoE): 35B 파라미터지만 MoE 구조라 실제 활성 파라미터는 적어. -ncmoe 값 조정으로 12GB에서도 실용적으로 돌아가. 단, 설정에 따라 성능 편차가 크거든.

IQ4_XS 같은 최적화 quant를 쓸 때 수치고, 기본 설정에서는 다를 수 있어.

왜 12GB 기준이 중요한가

RTX 3060·3070·4060이 지금 가장 많이 깔린 소비자용 GPU야. r/LocalLLaMA 스레드에서 실측 결과가 올라오고 있어. 24GB가 필요했던 모델들이 12GB로 내려오면 로컬 LLM 입장에서 실질적인 전환점이 되는 거거든. Qwen 3.5-9B가 이 선에서 128K 컨텍스트까지 된다면, 긴 문서 처리·로컬 코딩 보조 용도로 쓸 수 있는 선택지가 하나 더 생기는 셈이야.

태그

#qwen#local-llm#vram#inference#alibaba-qwen

포맷 v3 가이드 news 3.3.0

팩트 체크

통과 · 2026-05-10 KST

검증 생성: AI + 편집 검토 · 2026-05-10 상태: 통과

통과 원문 대조

r/LocalLLaMA 스레드에서 80 tok/sec, 128K 컨텍스트 수치 직접 확인

80 tok/sec — Reddit 스레드 제목 및 본문 확인
128K 컨텍스트 — Qwen3.5 시리즈 공식 스펙과 일치
12GB VRAM (RTX 3060) — 스레드 하드웨어 설정 명시

통과 교차 검증 검증 출처 4

여러 r/LocalLLaMA 스레드에서 독립적으로 확인

35B-A3B MoE 12GB 동작 스레드 별도 확인
BeeeLlama.cpp 속도 비교 스레드 확인
9070XT에서 Q3 Qwen 27B 추론 스레드 확인 (성능 범위 참고)

통과 수치 검증

토큰 속도와 VRAM 수치 측정값 범위 확인

80 tok/sec는 RTX 3060 12GB + 특정 quant 조합 기준 (IQ4_XS 등)
128K 컨텍스트는 Qwen3.5 아키텍처 공식 지원 값
-ncmoe 파라미터 조정이 MoE 성능에 크게 영향 — 커뮤니티 다수 확인

통과 비판 검토

커뮤니티 측정치의 한계 검토

80 tok/sec는 최적 quant(IQ4_XS) + 특정 설정에서의 수치. 기본 설정과 다를 수 있음.
MoE 모델은 -ncmoe 값에 따라 VRAM 사용량과 속도가 크게 달라짐
Qwen3.5-9B 공식 출시 날짜는 HuggingFace 모델 페이지에 없어 정확한 릴리스 시점 미확인

커뮤니티 벤치마크라 공식 OpenLLM Leaderboard 검증은 별도 필요.

출처: Qwen3.5-9B — HuggingFace , r/LocalLLaMA — 80 tok/sec on 12GB VRAM , r/LocalLLaMA — Qwen 3.5-A3B on 12GB VRAM , r/LocalLLaMA — BeeeLlama.cpp comparison