한 줄 정의

Qwen3는 Alibaba Qwen 팀이 2025년 4월 29일 공개한 Qwen 계열의 모델 세대야. 한 모델 ID가 아니라 dense 모델 6개와 MoE 모델 2개를 묶은 이름이고, qwen3:14b처럼 Ollama 태그로 보일 때도 실제로는 어떤 크기와 양자화를 쓰는지 다시 봐야 해.

처음 공개된 묶음은 Qwen3-0.6B, 1.7B, 4B, 8B, 14B, 32B 같은 dense 모델과 30B-A3B, 235B-A22B 같은 MoE 모델로 갈라져. 그래서 Qwen3라는 말만 보고 “14B 로컬 모델”이나 “A3B 모델” 하나로 줄여 읽으면 문맥이 바로 틀어져.

이 모델로 무엇을 할 수 있나

Qwen3는 텍스트 생성, 코드 보조, 수학 풀이, 다국어 번역, 긴 문서 요약, Agentic Coding 실험에 붙일 수 있는 오픈 가중치 계열이야. 공식 발표SGLangvLLM으로 OpenAI 호환 엔드포인트를 띄우는 경로, llama.cppLM Studio 같은 로컬 LLM 경로를 같이 안내해.

Qwen3의 큰 특징은 thinking mode와 non-thinking mode를 한 모델 안에서 나눠 쓰는 방식이야. enable_thinking=true0...1 블록이 나올 수 있고, /think/no_think로 턴마다 추론 예산을 바꿀 수 있어. 업무 로그에 reasoning 출력을 남기면 안 되는 팀이라면 이 기능은 품질 옵션이 아니라 기록 정책과 함께 봐야 하는 설정이야.

16GB VRAM 장비에서는 작은 Qwen3 모델을 먼저 시험하는 편이 현실적이야. 예를 들어 LocalLLM.in의 T4 16GB 테스트는 qwen3:14b가 4K context에서 9.2GB VRAM과 14.86 tok/s, 32K context에서 13.6GB VRAM과 9.59 tok/s를 기록했다고 적어. 반면 다른 RTX 4080 16GB Ollama 테스트는 qwen3:14b를 12GB, 61.85 tok/s로 봤어. 같은 이름이라도 장비, prompt, context가 바뀌면 숫자가 크게 흔들린다는 뜻이야.

왜 중요한가

Qwen3가 중요한 이유는 오픈 웨이트 모델에서 “작게 빠른 모델”과 “크지만 일부 expert만 켜는 모델”을 한 세대 안에 같이 보여줬기 때문이야. 특히 A3B나 A22B 표기는 전체 파라미터가 아니라 한 토큰을 처리할 때 켜지는 경로를 말해. 30B-A3B는 30.5B 전체 모델을 저장해야 하지만, 매 토큰 계산은 3.3B 활성 경로로 간다는 식으로 읽어야 해.

이 차이는 도입 판단에서 바로 돈과 속도로 이어져. API 모델은 가격표와 rate limit을 먼저 보지만, Qwen3 같은 오픈 웨이트 모델은 GPU 메모리, KV cache, context 길이, serving runtime, thinking 출력 길이가 비용을 바꿔. “무료 모델”이 아니라 “토큰 요금 대신 운영비를 직접 책임지는 모델”에 가깝다고 보면 돼.

또 하나는 Chain-of-Thought와 운영 정책의 경계야. Qwen3는 reasoning을 더 길게 쓰게 만들 수 있지만, 모델의 생각 흔적을 제품 화면이나 로그에 그대로 남기는 게 항상 맞지는 않아. 그래서 Qwen3를 MCP 도구 호출이나 코딩 에이전트에 붙일 때는 정답률보다 먼저 출력 포맷, reasoning 분리, 실패 시 재시도 규칙을 정해야 해.

주의해서 볼 점

Qwen3.5, Qwen3.6, Qwen3-Coder, Qwen3-VL, Qwen3-Omni는 Qwen3만 적힌 표현과 같은 말이 아니야. Hugging Face의 Qwen3 collection에는 뒤쪽 파생 모델도 같이 보이지만, 이 페이지의 기준은 2025년 4월 원 Qwen3 공개 라인업이야. 2026년 기사에서 Qwen3.6-27BQwen3.6-35B-A3B가 나오면 해당 페이지로 따로 넘어가는 게 맞아.

2차 비교 글은 하드웨어 감을 잡는 데는 좋지만, 공식 스펙처럼 쓰면 위험해. SitePoint의 2026년 로컬 LLM 글은 “Qwen 3 7B”를 표에 넣지만, Qwen 공식 발표의 원 dense 라인업은 8B가 가장 가까운 항목이야. 그런 글은 “Qwen 계열이 로컬 후보로 언급된다”는 신호로만 쓰고, 실제 설치 전에는 Hugging Face 모델 ID와 라이선스를 다시 확인해야 해.

컨텍스트 숫자도 모델별로 따로 읽어야 해. 두 MoE 모델 카드에는 32,768 native contextYaRN 131,072 tokens가 적혀 있지만, 2507 Instruct/Thinking 같은 뒤쪽 checkpoint는 다른 context 값을 내세울 수 있어. 긴 문서를 넣을 계획이라면 벤치마크 점수보다 먼저 num_ctx, KV cache 메모리, 첫 토큰 지연 시간을 재야 해.

같이 보면 좋은 모델