한 줄 정의

qwen3.6 35b a3b는 Alibaba Qwen Team이 공개한 open-weight MoE multimodal model이야. HF API 기준 2026-05-03에 downloads 2,397,446, likes 1,567, lastModified 2026-04-24로 확인됐고, 이름의 35B는 전체 규모, A3B는 추론 때 켜지는 부분이 3B급이라는 뜻으로 읽으면 돼.

이 모델은 Qwen API 제품군 전체가 아니라 Hugging FaceQwen/Qwen3.6-35B-A3B repository에 올라온 특정 모델이야. 이 저장소는 API 가격표가 아니라 weight download와 Apache-2.0 조건을 제공하므로, 로컬/self-host, Hugging Face endpoint, Alibaba Cloud API 계열을 같은 것으로 섞으면 안 돼.

이 모델로 무엇을 할 수 있나

왜 중요한가

35B급 모델을 모두 켜는 방식과 active parameter만 일부 켜는 MoE 모델은 비용 판단이 달라져. Qwen3.6-35B-A3B는 이 차이를 직접 비교할 수 있는 open-weight 후보야.

하지만 open-weight와 API 상품을 섞으면 판단이 틀어져. 로컬 배포, hosted endpoint, Alibaba Cloud API는 가격표와 운영 책임이 다르니 따로 봐야 해. 도입 전에는 같은 prompt 묶음으로 latency와 memory를 먼저 재는 게 좋아.

언제 쓰고 언제 넘기나

  • USE: 오픈 웨이트를 직접 운영하면서 coding agent, document reasoning, vision-text task를 한 모델 후보로 비교하고 싶다면 시험할 만해.
  • USE: Alibaba 생태계나 Qwen 계열을 이미 쓰고 있고 Apache-2.0 open-weight 조건이 팀 정책과 맞는다면 self-host 후보가 돼.
  • SKIP: 운영팀이 GPU serving을 맡기 어렵거나 SLA가 중요하면 Qwen API 계열이나 hosted model endpoint가 더 단순할 수 있어.

주의해서 볼 점

A3B active라는 말은 비용이 3B dense model과 같다는 뜻이 아니야. MoE routing, KV cache, vision encoder, quantization 방식이 memory와 latency를 함께 바꾼다.

Simon Willison이 언급한 GGUF로컬 실행 사례는 특정 quantization 조건의 참고일 뿐 BF16 원본 요구량을 대체하지 않아. benchmark 숫자도 팀의 prompt, tool, language mix에서 다시 재야 해.

같이 보면 좋은 모델

  • Qwen: API 제품군과 open-weight 모델을 구분하는 상위 항목이야.
  • Qwen3.5-35B-A3B: 이전 세대와 바뀐 점을 비교할 때 필요해.
  • Gemma 4: 비슷한 규모 후보와 로컬 운영 조건을 비교할 때 맞닿아.