무슨 일이 있었나

Alibaba Qwen 팀의 Qwen 3.5-9B가 HuggingFace에 올라오면서 r/LocalLLaMA에서 실제 돌려보는 결과가 쏟아지고 있어. RTX 3060 12GB 기준으로 80 토큰/초, 128K 컨텍스트를 지원하는 셈이거든 — 소비자용 GPU치고 상당한 수치야.

뭐가 가능해졌나

Qwen 3.5 시리즈에서 실제로 돌려보는 커뮤니티가 많이 언급하는 게 두 가지야.

  • Qwen 3.5-9B (덴스 모델): 12GB VRAM에서 80 tok/sec, 128K 컨텍스트. 일반 코딩·문서 작업에 충분한 속도야.
  • Qwen 3.6-35B-A3B-MTP (MoE): 35B 파라미터지만 MoE 구조라 실제 활성 파라미터는 적어. -ncmoe 값 조정으로 12GB에서도 실용적으로 돌아가. 단, 설정에 따라 성능 편차가 크거든.

IQ4_XS 같은 최적화 quant를 쓸 때 수치고, 기본 설정에서는 다를 수 있어.

왜 12GB 기준이 중요한가

RTX 3060·3070·4060이 지금 가장 많이 깔린 소비자용 GPU야. r/LocalLLaMA 스레드에서 실측 결과가 올라오고 있어. 24GB가 필요했던 모델들이 12GB로 내려오면 로컬 LLM 입장에서 실질적인 전환점이 되는 거거든. Qwen 3.5-9B가 이 선에서 128K 컨텍스트까지 된다면, 긴 문서 처리·로컬 코딩 보조 용도로 쓸 수 있는 선택지가 하나 더 생기는 셈이야.