한 줄 정의
Qwen3.5-35B-A3B는 Alibaba의 Qwen 팀이 공개한 오픈 웨이트 멀티모달 모델이야. 총 35B 파라미터 중 3B만 활성화하는 sparse MoE 구조라, 아주 큰 계열보다 계산량을 줄이면서도 텍스트, 이미지, 비디오 입력을 받아 추론·코딩·도구 호출 같은 일을 하도록 설계됐다. 라이선스는 Apache 2.0이고, 기본 컨텍스트는 262,144 토큰이다.
이 모델로 무엇을 할 수 있나
실무에선 두 갈래로 많이 본다. 하나는 Hugging Face 가중치를 받아 vLLM이나 SGLang으로 OpenAI 호환 엔드포인트를 에이전트에 띄워서 사내 도구, 에이전트, 코딩 보조에 붙이는 방식이고, 다른 하나는 같은 계열의 관리형 경로인 Qwen3.5-Flash를 Alibaba Cloud Model Studio API로 쓰는 방식이야. 기본값은 thinking 모드라 응답 앞에 Hugging Face 블록이 붙을 수 있고, 비생각 모드는 enable_thinking: false로 끌 수 있다. 이미지 질문, 비디오 질문, 툴 호출 예시도 공식 카드에 다 있어서 문서 이해, 화면 기반 질의, 도구 오케스트레이션을 한 모델로 묶기 좋다. 일반 질의는 32,768 토큰 출력 권장값으로도 충분하고, 복잡한 수학·코딩 벤치마크는 81,920 토큰 출력까지 잡는 예시가 나온다.
왜 중요한가
이 모델이 중요한 이유는 오픈 웨이트인데도 멀티모달, 긴 컨텍스트, 에이전트 사용까지 한 번에 비교할 기준점이 되기 때문이야. 35B 총량이지만 활성 3B 구조라 dense 30B급보다 효율을 챙기려는 선택지로 자주 올라오고, 기본 262,144 토큰 컨텍스트를 1,010,000 토큰까지 늘릴 수 있어 긴 문서나 긴 작업 기록을 다룰 때 운영 설계 여지가 크다. 반대로 완전히 가벼운 로컬 모델이라고 보면 틀려. 공식 서빙 예시도 8 GPU 텐서 병렬을 전제로 하고, 관리형 Qwen3.5-Flash 가격도 글로벌 기준 입력 1M 토큰 $0.029, 출력 1M 토큰 $0.287부터라 배포 방식에 따라 비용 감각이 꽤 달라진다.