이 용어는 어디까지 신뢰할 수 있나요?

Qwen3는 Alibaba Qwen 팀이 2025년 4월 29일 공개한 Qwen 계열의 모델 세대야. 한 모델 ID가 아니라 dense 모델 6개와 MoE 모델 2개를 묶은 이름이고, qwen3:14b처럼 Ollama 태그로 보일 때도 실제로는 어떤 크기와 양자화를 쓰는지 다시 봐야 해.

처음 공개된 묶음은 Qwen3-0.6B, 1.7B, 4B, 8B, 14B, 32B 같은 dense 모델과 30B-A3B, 235B-A22B 같은 MoE 모델로 갈라져. 그래서 Qwen3라는 말만 보고 “14B 로컬 모델”이나 “A3B 모델” 하나로 줄여 읽으면 문맥이 바로 틀어져.

이 모델로 무엇을 할 수 있나

Qwen3는 텍스트 생성, 코드 보조, 수학 풀이, 다국어 번역, 긴 문서 요약, Agentic Coding 실험에 붙일 수 있는 오픈 가중치 계열이야. 공식 발표는 SGLang과 vLLM으로 OpenAI 호환 엔드포인트를 띄우는 경로, llama.cpp와 LM Studio 같은 로컬 LLM 경로를 같이 안내해.

Qwen3의 큰 특징은 thinking mode와 non-thinking mode를 한 모델 안에서 나눠 쓰는 방식이야. enable_thinking=true면 <think>...</think> 블록이 나올 수 있고, /think와 /no_think로 턴마다 추론 예산을 바꿀 수 있어. 업무 로그에 reasoning 출력을 남기면 안 되는 팀이라면 이 기능은 품질 옵션이 아니라 기록 정책과 함께 봐야 하는 설정이야.

16GB VRAM 장비에서는 작은 Qwen3 모델을 먼저 시험하는 편이 현실적이야. 예를 들어 LocalLLM.in의 T4 16GB 테스트는 qwen3:14b가 4K context에서 9.2GB VRAM과 14.86 tok/s, 32K context에서 13.6GB VRAM과 9.59 tok/s를 기록했다고 적어. 반면 다른 RTX 4080 16GB Ollama 테스트는 qwen3:14b를 12GB, 61.85 tok/s로 봤어. 같은 이름이라도 장비, prompt, context가 바뀌면 숫자가 크게 흔들린다는 뜻이야.

왜 중요한가

Qwen3가 중요한 이유는 오픈 웨이트 모델에서 “작게 빠른 모델”과 “크지만 일부 expert만 켜는 모델”을 한 세대 안에 같이 보여줬기 때문이야. 특히 A3B나 A22B 표기는 전체 파라미터가 아니라 한 토큰을 처리할 때 켜지는 경로를 말해. 30B-A3B는 30.5B 전체 모델을 저장해야 하지만, 매 토큰 계산은 3.3B 활성 경로로 간다는 식으로 읽어야 해.

이 차이는 도입 판단에서 바로 돈과 속도로 이어져. API 모델은 가격표와 rate limit을 먼저 보지만, Qwen3 같은 오픈 웨이트 모델은 GPU 메모리, KV cache, context 길이, serving runtime, thinking 출력 길이가 비용을 바꿔. “무료 모델”이 아니라 “토큰 요금 대신 운영비를 직접 책임지는 모델”에 가깝다고 보면 돼.

또 하나는 Chain-of-Thought와 운영 정책의 경계야. Qwen3는 reasoning을 더 길게 쓰게 만들 수 있지만, 모델의 생각 흔적을 제품 화면이나 로그에 그대로 남기는 게 항상 맞지는 않아. 그래서 Qwen3를 MCP 도구 호출이나 코딩 에이전트에 붙일 때는 정답률보다 먼저 출력 포맷, reasoning 분리, 실패 시 재시도 규칙을 정해야 해.

주의해서 볼 점

Qwen3.5, Qwen3.6, Qwen3-Coder, Qwen3-VL, Qwen3-Omni는 Qwen3만 적힌 표현과 같은 말이 아니야. Hugging Face의 Qwen3 collection에는 뒤쪽 파생 모델도 같이 보이지만, 이 페이지의 기준은 2025년 4월 원 Qwen3 공개 라인업이야. 2026년 기사에서 Qwen3.6-27B나 Qwen3.6-35B-A3B가 나오면 해당 페이지로 따로 넘어가는 게 맞아.

2차 비교 글은 하드웨어 감을 잡는 데는 좋지만, 공식 스펙처럼 쓰면 위험해. SitePoint의 2026년 로컬 LLM 글은 “Qwen 3 7B”를 표에 넣지만, Qwen 공식 발표의 원 dense 라인업은 8B가 가장 가까운 항목이야. 그런 글은 “Qwen 계열이 로컬 후보로 언급된다”는 신호로만 쓰고, 실제 설치 전에는 Hugging Face 모델 ID와 라이선스를 다시 확인해야 해.

컨텍스트 숫자도 모델별로 따로 읽어야 해. 두 MoE 모델 카드에는 32,768 native context와 YaRN 131,072 tokens가 적혀 있지만, 2507 Instruct/Thinking 같은 뒤쪽 checkpoint는 다른 context 값을 내세울 수 있어. 긴 문서를 넣을 계획이라면 벤치마크 점수보다 먼저 num_ctx, KV cache 메모리, 첫 토큰 지연 시간을 재야 해.

같이 보면 좋은 모델

Qwen: Alibaba의 상위 브랜드와 API·오픈 웨이트 경계를 확인할 때 기준이 돼.
Qwen3-30B-A3B: A3B가 실제로 어떤 메모리와 context 판단으로 이어지는지 보는 구체 모델이야.
Qwen3.5-35B-A3B: Qwen3 다음 세대의 멀티모달·긴 context 방향을 비교할 때 필요해.
Local LLM: Qwen3를 API 상품이 아니라 직접 돌리는 후보로 볼 때 하드웨어와 운영 책임을 나눠 보게 해.

이 항목을 참조하는 위키

📰 관련 기사 (1)

RTX 5090 vs M5 Max 128GB — AI 에이전트 개발용 5천 달러의 선택2026-05-07🔥78점 · 출처 2

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-03 KST

검증 생성: AI + 편집 검토 · 2026-05-03 상태: 통과

통과 원문 대조 검증 출처 4

공식 발표와 모델 카드에서 Qwen3를 단일 모델이 아니라 세대 라인업으로 확인했어.

독자 문제 대조: Qwen3를 그냥 로컬 LLM 추천명으로 읽을지, 정확한 모델 ID를 골라야 하는 세대명으로 읽을지 먼저 가르게 했어.
Qwen 공식 발표는 2025-04-29 공개일, dense 모델 6개, MoE 모델 2개, Apache 2.0 배포를 같이 적어.
30B-A3B 모델 카드는 30.5B total, 3.3B activated, 128 experts, 8 activated experts, 32,768 native context를 더 세밀하게 적어.
235B-A22B 모델 카드는 235B total, 22B activated, 32,768 native와 131,072 YaRN context를 적어.

본문은 공식 발표의 30B/3B 라운드 표기와 모델 카드의 30.5B/3.3B 상세 표기를 섞지 않고 역할을 나눴어.

통과 교차 검증 검증 출처 5

공식 출처와 로컬 LLM 비교 글을 맞대서, 성능 추천과 모델 정체성을 분리했어.

비교 기준: 공식 Qwen3 라인업, Hugging Face 모델 카드, 16GB VRAM 벤치마크, 개발자용 로컬 LLM 추천 글을 따로 봤어.
LocalLLM.in의 T4 16GB 테스트는 qwen3:14b가 4K에서 9.2GB VRAM, 14.86 tok/s, 32K에서 13.6GB VRAM, 9.59 tok/s였다고 적어.
Rost Glukhov의 RTX 4080 16GB Ollama 테스트는 qwen3:14b를 12GB, 100% GPU, 61.85 tok/s로 기록해.
SitePoint는 Qwen 3 7B처럼 느슨한 이름을 쓰지만, 공식 원 Qwen3 발표의 dense 라인업에는 8B가 있고 7B는 없어서 본문 숫자 근거로 쓰지 않았어.

로컬 벤치마크 숫자는 장비와 context가 달라지는 사례라서, 도입 결론이 아니라 측정해야 할 항목으로만 남겼어.

통과 수치 검증 검증 출처 4

공식 라인업 수, 활성 파라미터, context, 로컬 벤치마크 수치를 출처별로 분리해 확인했어.

공식 발표 기준 Qwen3 원 라인업은 0.6B, 1.7B, 4B, 8B, 14B, 32B dense 6개와 30B-A3B, 235B-A22B MoE 2개야.
30B-A3B는 모델 카드 기준 30.5B total, 29.9B non-embedding, 3.3B activated, 48 layers, 128 experts, 8 activated experts야.
235B-A22B는 모델 카드 기준 235B total, 22B activated, 94 layers, 128 experts, 8 activated experts야.
Qwen 공식 발표는 36 trillion tokens와 119 languages and dialects 학습 맥락을 적지만, 본문에서는 세대 정체성에 필요한 정도로만 썼어.

Qwen3.5나 Qwen3.6의 2026년 수치는 Qwen3 원 세대와 섞이면 안 돼서 비교 항목으로만 뺐어.

통과 비판 검토 검증 출처 6

Qwen3를 최신 Qwen 전체, 단일 14B Ollama 태그, 또는 A3B 모델 하나로 과장하지 않게 제한했어.

2026-05-03 기준 AIKI 안에는 Qwen3.5와 Qwen3.6 페이지가 따로 있어서, plain Qwen3는 원 세대와 local tag 문맥을 먼저 확인해야 해.
thinking 모드는 품질을 올릴 수 있지만 `<think>` 블록, 출력 길이, latency, 기록 정책을 같이 바꾸므로 공짜 옵션처럼 쓰지 않았어.
A3B와 A22B는 활성 파라미터 표기라서, 전체 웨이트 저장량과 KV cache 메모리까지 3B나 22B급으로 줄어든다고 쓰지 않았어.
Medium 후보 URL은 크롤러에서 안정적인 본문을 주지 않아, 같은 글의 작성자 사이트에 공개된 16GB VRAM 벤치마크만 검증 근거로 썼어.

이 페이지의 판단 축은 순위표가 아니라 정확한 모델 ID, 실행 경로, reasoning 출력 정책을 가르는 거야.

출처: Qwen3: Think Deeper, Act Faster , Hugging Face — 30B-A3B model card , Hugging Face — 235B-A22B model card , Hugging Face — Qwen3 collection , LocalLLM.in — Best Local LLMs for 16GB VRAM , SitePoint — Best Local LLM Models 2026 , Rost Glukhov — Ollama on 16GB VRAM GPU

Qwen3 (큐원3)

상위 모델

전체 AI 기술 맵에서의 위치

한 줄 정의