한 줄 정의

Qwen3.5-35B-A3B는 AlibabaQwen 팀이 공개한 오픈 웨이트 멀티모달 모델이야. 총 35B 파라미터 중 3B만 활성화하는 sparse MoE 구조라, 아주 큰 계열보다 계산량을 줄이면서도 텍스트, 이미지, 비디오 입력을 받아 추론·코딩·도구 호출 같은 일을 하도록 설계됐다. 라이선스Apache 2.0이고, 기본 컨텍스트는 262,144 토큰이다.

이 모델로 무엇을 할 수 있나

실무에선 두 갈래로 많이 본다. 하나는 Hugging Face 가중치를 받아 vLLM이나 SGLang으로 OpenAI 호환 엔드포인트를 에이전트에 띄워서 사내 도구, 에이전트, 코딩 보조에 붙이는 방식이고, 다른 하나는 같은 계열의 관리형 경로인 Qwen3.5-FlashAlibaba Cloud Model Studio API로 쓰는 방식이야. 기본값은 thinking 모드라 응답 앞에 Hugging Face 블록이 붙을 수 있고, 비생각 모드는 enable_thinking: false로 끌 수 있다. 이미지 질문, 비디오 질문, 툴 호출 예시도 공식 카드에 다 있어서 문서 이해, 화면 기반 질의, 도구 오케스트레이션을 한 모델로 묶기 좋다. 일반 질의는 32,768 토큰 출력 권장값으로도 충분하고, 복잡한 수학·코딩 벤치마크는 81,920 토큰 출력까지 잡는 예시가 나온다.

왜 중요한가

이 모델이 중요한 이유는 오픈 웨이트인데도 멀티모달, 긴 컨텍스트, 에이전트 사용까지 한 번에 비교할 기준점이 되기 때문이야. 35B 총량이지만 활성 3B 구조라 dense 30B급보다 효율을 챙기려는 선택지로 자주 올라오고, 기본 262,144 토큰 컨텍스트를 1,010,000 토큰까지 늘릴 수 있어 긴 문서나 긴 작업 기록을 다룰 때 운영 설계 여지가 크다. 반대로 완전히 가벼운 로컬 모델이라고 보면 틀려. 공식 서빙 예시도 8 GPU 텐서 병렬을 전제로 하고, 관리형 Qwen3.5-Flash 가격도 글로벌 기준 입력 1M 토큰 $0.029, 출력 1M 토큰 $0.287부터라 배포 방식에 따라 비용 감각이 꽤 달라진다.

같이 보면 좋은 모델

  • Qwen3.5-27B는 같은 시리즈의 dense 모델이라 구조가 단순하고 운영 감각이 다르다. MoE 대신 단일 본체를 선호하면 이쪽이 바로 비교 기준이 된다.
  • Qwen3.5-122B-A10B는 더 큰 Qwen3.5 MoE라 성능 상한을 보고 싶을 때 좋다. 대신 비용과 배포 자원도 한 단계 더 무겁다.
  • Qwen3-30B-A3B는 Qwen3 세대의 대응 모델이라 thinking 계열 사용감과 로컬 생태계를 비교할 때 기준점이 된다.