이 용어는 어디까지 신뢰할 수 있나요?

Qwen3-30B-A3B는 Alibaba Qwen 팀이 공개한 Qwen3 세대의 텍스트 MoE 모델이야. 검색어로 들어온 qwen3 30b a3b도 같은 모델을 가리켜. 이름만 보면 30B 모델처럼 보이지만, 한 토큰을 처리할 때 켜지는 경로는 3.3B 활성 파라미터라서 A3B 표기를 같이 읽어야 해.

이 모델은 텍스트를 넣고 텍스트를 받는 추론 후보야. 요약, 코드 보조, 지시사항 처리, 도구 호출 프롬프트처럼 문자열 중심 작업을 자체 서버에서 돌려 보고 싶을 때 비교표에 올릴 수 있어. 반대로 이미지나 비디오 입력이 필요하면 이 모델을 제외하고 Qwen3.5-35B-A3B를 비교해.

이 모델로 무엇을 할 수 있나

실무에서 먼저 해볼 작업은 텍스트 전용 작업을 vLLM이나 SGLang 같은 추론 런타임으로 직접 서빙하는 거야. 예를 들어 사내 위키 문서 30개를 같은 포맷으로 요약하거나, 코드 리뷰 코멘트를 일정한 규칙으로 분류하거나, Agentic Coding 흐름에서 도구 호출 전후의 설명을 안정적으로 만들 때 후보가 돼.

Qwen3 계열은 thinking mode와 non-thinking mode를 나눠 쓸 수 있어. Hugging Face 예시는 enable_thinking=true를 기본값으로 두고, 빠른 답이 필요한 경우 enable_thinking=false로 바꾸는 방식을 보여 줘. 더 세밀하게는 프롬프트에 /think와 /no_think를 넣어 대화 턴마다 reasoning 예산을 조절할 수 있어.

긴 문서 처리도 가능하지만, 숫자를 분리해서 확인하면 돼. 모델 카드는 네이티브 컨텍스트를 32,768 토큰으로 적고, YaRN 설정을 쓰면 131,072 토큰까지 검증했다고 안내해. 그래서 평균 입력이 32K 아래라면 YaRN을 기본으로 켤 필요가 없고, 65,536 토큰 안팎 문서를 자주 넣을 때는 factor 2.0 같은 설정을 따로 실험하는 편이 맞아.

왜 중요한가

Qwen3-30B-A3B에서 먼저 확인할 숫자는 “30B 전체 모델”과 “3.3B 활성 경로”야. 128 experts 중 8개만 활성화하는 구조라 토큰당 계산량을 줄일 여지가 있지만, 가중치 보관과 KV 캐시는 여전히 큰 모델 운영 기준으로 잡아야 해. A3B만 보고 노트북용 3B 모델처럼 기대하면 바로 어긋나.

이 구분은 자체 서빙 비용을 계산할 때 꽤 중요해. API 요금표 하나로 끝나는 관리형 모델과 달리, 오픈 웨이트 모델은 GPU 종류, 배치 크기, 첫 토큰 지연, output token 길이, thinking mode 사용량이 비용을 직접 바꿔. 그래서 Qwen3-30B-A3B는 성능 문장에 기대기 전에 “우리 프롬프트 20~50개에서 32K 이하로 충분한가”를 재는 모델에 가까워.

또 하나는 Qwen3.5와의 경계야. Qwen3-30B-A3B는 텍스트 중심 실험 후보이고, Qwen3.5-35B-A3B는 vision language 벤치마크와 이미지·비디오 입력까지 보는 멀티모달 후보야. 둘 다 A3B처럼 보이지만, 입력 범위와 컨텍스트 설계가 달라서 같은 줄에 놓고 순위만 비교하면 판단이 흐려져.

같이 보면 좋은 모델

Qwen: 같은 브랜드 안에서 오픈 웨이트 모델과 클라우드 API 상품이 어떻게 갈리는지 확인할 때 기준이 돼.
Qwen3.5-35B-A3B: 멀티모달 입력, 262,144 네이티브 컨텍스트, 더 긴 문서 처리가 필요할 때 비교할 모델이야.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-03 KST

검증 생성: AI + 편집 검토 · 2026-05-03 상태: 통과

통과 원문 대조 검증 출처 2

모델 정체성, 공개일, MoE 구조, 접근 경로를 Qwen 공식 블로그와 Hugging Face 카드에 맞췄어.

독자 문제 대조: A3B를 3B급 dense 모델로 읽을지, 30B급 오픈 MoE 서빙 후보로 읽을지 먼저 갈라 보게 했어.
Qwen 공식 블로그는 2025-04-29에 Qwen3 공개를 알리고, Qwen3-30B-A3B를 smaller MoE 모델로 소개해.
공식 블로그는 Qwen3-30B-A3B를 30B total / 3B activated로 설명하고, 모델 저장소는 30.5B total / 3.3B activated로 더 세밀하게 적어.
Hugging Face의 메타데이터는 모델 태스크를 Text Generation으로 두고, 라이선스를 apache-2.0으로 표시해.

공식 블로그의 128K 표기는 라운드 표기라서, 본문은 모델 카드의 32,768 네이티브와 131,072 YaRN 수치를 같이 적어.

통과 교차 검증 검증 출처 3

Qwen3-30B-A3B와 Qwen3.5-35B-A3B를 이름만 비슷한 같은 후보처럼 묶지 않게 분리했어.

비교 기준: 텍스트 전용 Qwen3-30B-A3B, 멀티모달 Qwen3.5-35B-A3B, 그리고 자체 서빙 런타임 조건을 나눴어.
Qwen3 블로그는 SGLang과 vLLM 배포를 안내하고, 로컬 사용에는 Ollama, LMStudio, llama.cpp, KTransformers를 같이 언급해.
Qwen3-30B-A3B 저장소 설명은 32,768 네이티브 컨텍스트와 YaRN 131,072 토큰 검증을 적어.
Qwen3.5-35B-A3B 페이지는 vision language 벤치마크와 이미지·비디오 입력 맥락을 보여 줘.

이 페이지의 비교 기준은 성능 순위가 아니라 텍스트 전용 자체 서빙 후보인지 여부야.

통과 수치 검증 검증 출처 2

파라미터, expert 수, 컨텍스트 길이, 런타임 권장값처럼 공식 출처에서 확인 가능한 숫자만 썼어.

파라미터는 30.5B total, 29.9B non-embedding, 3.3B activated로 적고, 총 파라미터와 활성 파라미터를 분리했어.
expert 구조는 128 experts 중 8 activated experts로 적었어.
컨텍스트는 32,768 native와 YaRN 사용 시 131,072 tokens로 적고, 65,536 tokens 예시는 factor 2.0 조정 예시로만 이해했어.
런타임 조건은 공식 모델 설명의 transformers>=4.51.0, sglang>=0.4.6.post1, vllm>=0.8.5 권장을 기준으로 삼았어.

초당 토큰, VRAM 피크, 운영 단가는 공식 고정값이 아니라서 측정 항목으로만 남겼어.

통과 비판 검토 검증 출처 3

활성 3.3B를 비용 보장처럼 쓰지 않고, 텍스트 전용 후보라는 범위를 유지했어.

A3B는 계산 경로를 읽는 힌트이지 전체 가중치와 메모리 부담이 3B급이라는 뜻은 아니야.
벤더 블로그의 벤치마크 문장은 참고만 하고, 자체 서비스 품질은 고정 프롬프트와 서빙 로그로 다시 재야 한다고 적었어.
이미지, 비디오, 262,144 네이티브 컨텍스트가 필요하면 Qwen3.5-35B-A3B 같은 멀티모달 후보를 보라고 분기했어.

candidate JSON의 gemma 태그는 경쟁 모델 비교 축으로는 약해서 relatedTerms에는 넣지 않았어.

출처: Qwen3: Think Deeper, Act Faster , Qwen/Qwen3-30B-A3B , Qwen/Qwen3.5-35B-A3B

Qwen3-30B-A3B (큐웬3 30B A3B)

모델 프로필

상위 모델

전체 AI 기술 맵에서의 위치

한 줄 정의

이 모델로 무엇을 할 수 있나

왜 중요한가

같이 보면 좋은 모델

관련 용어

이 항목을 참조하는 위키