이 용어는 어디까지 신뢰할 수 있나요?

Qwen3.5-35B-A3B는 Alibaba의 Qwen 팀이 공개한 오픈 웨이트 멀티모달 모델이야. 총 35B 파라미터 중 3B만 활성화하는 sparse MoE 구조라, 아주 큰 계열보다 계산량을 줄이면서도 텍스트, 이미지, 비디오 입력을 받아 추론·코딩·도구 호출 같은 일을 하도록 설계됐다. 라이선스는 Apache 2.0이고, 기본 컨텍스트는 262,144 토큰이다.

이 모델로 무엇을 할 수 있나

실무에선 두 갈래로 많이 본다. 하나는 Hugging Face 가중치를 받아 vLLM이나 SGLang으로 OpenAI 호환 엔드포인트를 에이전트에 띄워서 사내 도구, 에이전트, 코딩 보조에 붙이는 방식이고, 다른 하나는 같은 계열의 관리형 경로인 Qwen3.5-Flash를 Alibaba Cloud Model Studio API로 쓰는 방식이야. 기본값은 thinking 모드라 응답 앞에 Hugging Face 블록이 붙을 수 있고, 비생각 모드는 enable_thinking: false로 끌 수 있다. 이미지 질문, 비디오 질문, 툴 호출 예시도 공식 카드에 다 있어서 문서 이해, 화면 기반 질의, 도구 오케스트레이션을 한 모델로 묶기 좋다. 일반 질의는 32,768 토큰 출력 권장값으로도 충분하고, 복잡한 수학·코딩 벤치마크는 81,920 토큰 출력까지 잡는 예시가 나온다.

왜 중요한가

이 모델이 중요한 이유는 오픈 웨이트인데도 멀티모달, 긴 컨텍스트, 에이전트 사용까지 한 번에 비교할 기준점이 되기 때문이야. 35B 총량이지만 활성 3B 구조라 dense 30B급보다 효율을 챙기려는 선택지로 자주 올라오고, 기본 262,144 토큰 컨텍스트를 1,010,000 토큰까지 늘릴 수 있어 긴 문서나 긴 작업 기록을 다룰 때 운영 설계 여지가 크다. 반대로 완전히 가벼운 로컬 모델이라고 보면 틀려. 공식 서빙 예시도 8 GPU 텐서 병렬을 전제로 하고, 관리형 Qwen3.5-Flash 가격도 글로벌 기준 입력 1M 토큰 $0.029, 출력 1M 토큰 $0.287부터라 배포 방식에 따라 비용 감각이 꽤 달라진다.

같이 보면 좋은 모델

Qwen3.5-27B는 같은 시리즈의 dense 모델이라 구조가 단순하고 운영 감각이 다르다. MoE 대신 단일 본체를 선호하면 이쪽이 바로 비교 기준이 된다.
Qwen3.5-122B-A10B는 더 큰 Qwen3.5 MoE라 성능 상한을 보고 싶을 때 좋다. 대신 비용과 배포 자원도 한 단계 더 무겁다.
Qwen3-30B-A3B는 Qwen3 세대의 대응 모델이라 thinking 계열 사용감과 로컬 생태계를 비교할 때 기준점이 된다.

이 항목을 참조하는 위키

포맷 v1 가이드 wiki 3.1.2

팩트 체크

통과 · 2026-04-29 KST

검증 생성: AI + 편집 검토 · 2026-04-29 상태: 통과

통과 원문 대조 검증 출처 2

Hugging Face 모델 카드에서 모델 정체성, 파라미터, 컨텍스트, thinking 기본값을 다시 맞췄고, GitHub 리다이렉트로 바뀐 항목은 근거에서 뺐다.

독자 문제 대조: 이 페이지는 로컬 오픈 웨이트로 직접 운영할지, 대응되는 관리형 API로 갈지 가르는 데 필요한 정체성·운영 경로·비용 감각을 먼저 배치했다.
Hugging Face 모델 카드는 이 모델을 비전 인코더가 붙은 causal language model로 소개하고, 총 35B·활성 3B 구조를 명시한다.
같은 카드가 기본 컨텍스트 262,144 토큰과 최대 1,010,000 토큰 확장 가능성을 적는다.
입력 sourceDetails에 있던 GitHub 저장소 URL은 현재 Qwen3.6으로 리다이렉트돼서, 모델 세부 스펙 근거로는 쓰지 않고 보조 맥락에서만 다뤘다.

통과 교차 검증 검증 출처 3

Qwen 공식 페이지와 Alibaba Cloud 문서를 함께 대조해서 오픈 웨이트 본체와 Qwen3.5-Flash 관리형 경로를 섞지 않도록 정리했다.

비교 기준: Hugging Face 모델 카드의 오픈 웨이트 설명, Qwen 공식 연구 페이지의 시리즈 소개, Alibaba Cloud Model Studio 가격표의 서비스명과 요금 체계를 맞춰 봤다.
Hugging Face 모델 카드는 Qwen3.5-Flash를 Qwen3.5-35B-A3B에 대응하는 hosted version이라고 적는다.
Qwen 공식 연구 페이지는 Qwen3.5 시리즈를 native multimodal agents 방향으로 소개해서, 이 페이지의 멀티모달·에이전트 설명 축을 뒷받침한다.
Alibaba Cloud Model Studio 가격표에는 `qwen3.5-flash` 요금이 있고 `qwen3.5-35b-a3b` 자체 토큰 단가는 따로 없어서, 가격 문장은 managed 경로로 한정했다.

통과 수치 검증 검증 출처 2

파라미터, 컨텍스트, 가격 숫자를 출처별로 다시 맞췄고, 공식 수치가 없는 메모리 값은 확정형 문장으로 쓰지 않았다.

35B total / 3B activated 수치는 Hugging Face model overview 기준으로 맞췄다.
기본 컨텍스트 262,144 토큰과 최대 1,010,000 토큰 확장 수치는 같은 카드 기준으로 유지했다.
Alibaba Cloud Model Studio 글로벌 가격표의 `qwen3.5-flash` 0~128K 구간 $0.029 / $0.287, 256K~1M 구간 $0.172 / $1.72를 반영했다.
메모리 요구량은 공식 VRAM 표가 없어서 35B 규모와 8 GPU 텐서 병렬 예시를 바탕으로 `수십 GB급` 추정이라고 표현 수위를 낮췄다.

통과 비판 검토 검증 출처 3

범위를 과장하지 않게 다듬고, 성능 자랑보다 운영 조건과 한계를 남겼다.

이 모델을 가벼운 로컬 모델처럼 쓰지 않았다. 활성 3B라도 총 35B라 배포 난도는 꽤 크다.
오픈 웨이트 본체와 Qwen3.5-Flash 관리형 API를 같은 상품처럼 섞지 않고 접근 경로를 분리했다.
공식 카드에 있는 코딩, 이미지, 비디오, 툴 호출 범위 안에서만 활용 예시를 적고, 벤치마크 우위 문장은 줄였다.

GitHub sourceDetails URL은 현재 Qwen3.6 저장소로 넘어가서 직접 근거로 쓰기엔 부정확했다.
정확한 로컬 메모리 수치는 공식 문서에 없어서, `memoryUsage`는 보수적인 추정 문장으로 남겼다.

출처: Hugging Face — Qwen/Qwen3.5-35B-A3B , Qwen Team — Qwen3.5 release blog , GitHub — QwenLM/Qwen3.5

Qwen3.5-35B-A3B (큐원 3.5-35B-A3B)

모델 프로필

전체 AI 기술 맵에서의 위치

한 줄 정의

이 모델로 무엇을 할 수 있나

왜 중요한가

같이 보면 좋은 모델

관련 용어

이 항목을 참조하는 위키