이 용어는 어디까지 신뢰할 수 있나요?

각 용어는 최신 공개 자료 기반으로 정리되며, 출처와 검증 기록을 바탕으로 점진적으로 업데이트됩니다.

Alibaba Qwen (알리바바 큐원)

다른 이름: alibaba qwenAlibaba Qwen

Alibaba Qwen은 Alibaba 산하 Qwen 팀의 모델 계열을 벤더 이름까지 붙여 부르는 표현이야. 단일 모델명이 아니라 Qwen3, Qwen3-14B, Qwen3-30B-A3B 같은 공개 가중치와 Alibaba Model Studio API 문맥을 갈라 읽어야 해.

상위 모델

전체 AI 기술 맵에서의 위치

응용 (Application)

프로젝트 (Project)

데이터셋 (Dataset)

기법 (Technique)

프레임워크 (Framework)

모델 (Model)

개념 (Concept)

Agents SDK(에이전트 SDK)AI Studio (AI 스튜디오)Aider(에이더)Alibaba Cloud API(알리바바 클라우드 API)Alibaba Cloud Model Studio(알리바바 클라우드 모델 스튜디오)Amazon Bedrock(아마존 베드록)Anthropic API(앤트로픽 API)App Store(앱 스토어)Batch API(배치 API)BentoML(벤토엠엘)Chat (대화형 AI 인터페이스)Chat Completions(챗 컴플리션스)ChatGPT(챗지피티)Chroma(크로마)Claude Code(클로드 코드)Claude Code Remote Control(클로드 코드 리모트 컨트롤)Claude Cowork(클로드 코워크)Claude Desktop(클로드 데스크톱)claude remote-control(클로드 리모트 컨트롤 명령)claude --version (버전 조회)claude.ai(클로드 웹 앱)Cline(클라인)CloudTrail(클라우드트레일)Codex(코덱스)Codex CLI(코덱스 CLI)ComfyUI(컴피유아이)Continue(컨티뉴)GitHub Copilot (깃허브 코파일럿)Cursor(커서)DeepSeek API(딥시크 API)DGX B200(디지엑스 B200)DGX Spark(디지엑스 스파크)Docker(도커)Excel(엑셀)FAISS (페이스)Gemini API(제미니 API)Gemini API File Search(제미니 API 파일 검색)Gemini Developer API(제미니 디벨로퍼 API)Gemini Enterprise Agent Platform(제미니 엔터프라이즈 에이전트 플랫폼)GitHub (깃허브)Gmail(지메일)Google AI Studio(구글 AI 스튜디오)Google Calendar(구글 캘린더)Google Docs(구글 문서)Google Drive(구글 드라이브)Google Search(구글 검색)Google Sheets(구글 시트)H100 (엔비디아 호퍼 GPU)Hugging Face(허깅 페이스)Jetson Thor(젯슨 토르)Kimi API(키미 API)Kimi Code(키미 코드)Kimi.com(키미닷컴)KTransformers (케이트랜스포머스)Live API(라이브 API)llama-cli (로컬 LLM CLI)llama.cpp(로컬 LLM 런타임)llama-server(로컬 LLM 서빙 서버)llama.cpp (로컬 LLM 추론 엔진)LM Studio(엘엠 스튜디오)LocalLLaMA (로컬라마)Microsoft Foundry(마이크로소프트 파운드리)MiMo Code (미모 코드)MLflow(엠엘플로우)Modal(모달)Model Garden(모델 가든)Model Studio(모델 스튜디오)Model Studio API(모델 스튜디오 API)ModelScope(모델스코프)n8n(엔에잇엔)Ollama(올라마)OpenAI API(오픈에이아이 API)OpenAI Chat Completion(오픈AI 챗 컴플리션)OpenAI SDK(오픈에이아이 SDK)OpenClaw(오픈클로)OpenRouter(오픈라우터)Perplexity (퍼플렉시티)Pinecone (파인콘)Qdrant (큐드런트)Qwen API(큐원 API)Qwen Code(큐원 코드)Qwen Studio(큐원 스튜디오)Raspberry Pi (라즈베리 파이)Replicate(레플리케이트)Responses API(리스폰스 API)SGLang(에스지랭)Studio(스튜디오)Supabase(수파베이스)Tokenizer(토크나이저)Triton Inference Server(트리톤 추론 서버)Vector Database (벡터 데이터베이스)vLLM(브이엘엘엠)VS Code(비주얼 스튜디오 코드)Weaviate(위비에이트)Weights & Biases(웨이츠 앤 바이어시스)Windsurf(윈드서프)

Activepieces (액티브피시스)agent-skills Agentic AQUA (에이전틱 아쿠아)AgentTrust Apache Airflow (아파치 에어플로)Cairn (케언)DeepGEMM(딥시크 CUDA 커널 라이브러리)Engram(엔그램)HyperFrames (하이퍼프레임스)LightRAG (라이트RAG)Manifest (매니페스트)mcp-mydisease (MyDisease.info MCP 서버)mcp-xray (Jira Xray MCP 서버)NautilusTrader (노틸러스 트레이더)NostalgiaForInfinity (노스탤지아 포 인피니티)opencodex(오픈코덱스)OpenMemory (오픈메모리)PocketBase (포켓베이스)Microsoft Qlib (마이크로소프트 Qlib)Savvly MCP (세이블리 MCP 서버)Tmax(티맥스)whisper.cpp (위스퍼.cpp)yfinance (와이파이낸스)

Nemotron-Personas-Korea (네모트론 페르소나스 코리아)PII-Masking-300k(피아이아이 마스킹 300K)

Agentic AI (에이전틱 AI)Agentic Coding(에이전틱 코딩)benchmark (벤치마크)Chain-of-Thought(연쇄 추론 유도)DeepSeek Sparse Attention (딥시크 스파스 어텐션)Distillation (지식 증류)Eval(평가)Fine-tuning (파인튜닝)Function Calling(함수 호출)Grounding (그라운딩)Guardrail(가드레일)--kv-cache-dtype bfloat16 (BF16 KV 캐시 저장 형식 플래그)Prompt Caching(프롬프트 캐싱)Prompt Engineering(프롬프트 엔지니어링)Quantization (양자화)RAG (검색 증강 생성)reasoning.effort (리즈닝 이포트)Red Teaming (레드 팀잉)RLHF(인간 피드백 기반 강화학습)Speech to Text(음성 인식)Synthetic Data(합성 데이터)Text to Speech(음성 합성)Tool Use(도구 사용)Training(학습)Vibe Coding(바이브 코딩)

Agent Platform(에이전트 플랫폼)Agent Runtime(에이전트 런타임)AutoGen(오토젠)Claude Managed Agents(클로드 매니지드 에이전트)CrewAI (크루에이아이)DeepSpeed(딥스피드)GGUF(GGUF 모델 파일 형식)Gradio (그라디오)JAX (잭스)Kubeflow(쿠브플로우)LangChain (랭체인)LangGraph(랭그래프)LlamaIndex (라마인덱스)llm-server(로컬 llama.cpp 서빙 자동화 프레임워크)MCP (모델 컨텍스트 프로토콜)MCP server (MCP 서버)MLX(엠엘엑스)ONNX(오닉스)PyTorch(파이토치)Ray(레이)Runtime(런타임)Streamlit(스트림릿)TensorFlow (텐서플로)TensorRT Edge-LLM(텐서RT 엣지 LLM)Transformer Engine(트랜스포머 엔진)Vercel AI SDK(버셀 AI SDK)x402 (에이전트 micropayment 프로토콜)

Alibaba Qwen (알리바바 큐원)Anthropic Claude(앤트로픽 클로드)ChatGPT-5.2 Instant (챗지피티 5.2 인스턴트)ChatGPT-5.2 Pro (챗지피티 5.2 프로)Claude(클로드)Claude Fable 5(클로드 페이블 5)Claude Opus(클로드 오퍼스)Claude Opus 4.5(클로드 오퍼스 4.5)Claude Opus 4.6(클로드 오퍼스 4.6)Claude Opus 4.7(클로드 오퍼스 4.7)Claude Opus 4.6(클로드 오퍼스 4.6)Claude Sonnet (클로드 소넷)Claude Sonnet 4.5(클로드 소네트 4.5)DALL-E (달리)DeepSeek (딥시크)deepseek-chat (딥시크 챗)DeepSeek R1(딥시크 R1)DeepSeek Reasoner (딥시크 리저너)DeepSeek-V3.2-Speciale (딥시크 V3.2-Speciale)DeepSeek V4 (딥시크 V4)FLUX.1 (플럭스 원)Gemini(제미니)Gemini 2.5 (제미나이 2.5)Gemini 2.5 Flash (제미나이 2.5 플래시)Gemini 2.5 Pro (제미나이 2.5 프로)Gemini Embedding(제미니 임베딩)Gemini Embedding 2(제미니 임베딩 2)Gemini Omni(제미니 옴니)Gemma (젬마)Gemma 3(젬마 3)Gemma 4(젬마 4)Gemma-4-26B-A4B-NVFP4(젬마 4 26B A4B NVFP4)GLM (지엘엠)GLM 5(지엘엠 5)GLM 5.1(지엘엠 5.1)GPT-2 (지피티-2)GPT-3 (지피티-3)GPT-3.5 (지피티-3.5)GPT-4 (지피티-4)GPT-4.1 (지피티 4.1)GPT-4o(지피티-4o)gpt-4o-mini (지피티-4o 미니)gpt-4o-mini-2024-07-18 스냅샷 GPT-5 (지피티-5)GPT-5.5 Instant (지피티 5.5 인스턴트)GPT-5-Codex (지피티 5 코덱스)GPT-5.1 (지피티 5.1)gpt-5.1-chat-latest (지피티 5.1 챗 레이티스트)GPT-5.1 Codex (지피티 5.1 코덱스)GPT-5.1 Codex mini (지피티 5.1 코덱스 미니)gpt-5.2 gpt-5.2-2025-12-11 (GPT-5.2 고정 스냅샷)gpt-5.2-chat-latest (지피티 5.2 챗 레이티스트)GPT-5.2 Pro (지피티 5.2 프로)GPT-5.2 Pro 2025-12-11 스냅샷 (지피티 5.2 프로 고정 버전)GPT-5.2 Thinking (지피티 5.2 씽킹)GPT-5.3 (지피티 5.3)gpt-5.3-chat-latest (지피티 5.3 챗 레이티스트)GPT-5.3 Instant (GPT-5.3 인스턴트)GPT-5.4 (지피티 5.4)gpt-5.4-2026-03-05 (GPT-5.4 고정 스냅샷)GPT-5.4 API (지피티 5.4 API)GPT-5.4-Cyber (지피티 5.4 사이버)GPT-5.4 Mini (지피티 5.4 미니)GPT-5.4 Pro (지피티 5.4 프로)GPT-5.4 Thinking (지피티 5.4 씽킹)GPT-5.5 (지피티 5.5)GPT-5.5 Instant (지피티 5.5 인스턴트)GPT-5.5 Pro (GPT-5.5 프로)GPT-5.5 Thinking (지피티 5.5 씽킹)GPT Image(지피티 이미지)gpt-image-2 (지피티 이미지 2)gpt-oss(지피티 오에스에스)GPT-OSS 20B(오픈 웨이트 모델)GPT-Rosalind(지피티-로절린드)Grok (그록)Imagen (이마젠)K2.5 (키미 K2.5)Kimi(키미)Kimi K2 (키미 K2)Kimi K2.6 (키미 K2.6)Llama (라마)Lyria (리리아)M2.7(엠투점칠)MiMo-V2.5-ASR (샤오미 음성인식 모델)MiniMax M2.7(미니맥스 M2.7)Mistral(미스트랄 모델 계열)Mistral AI (미스트랄 AI)Mixtral(믹스트랄)model="deepseek-reasoner" (딥시크 리저너 모델값)Mythos Preview (마이토스 프리뷰)Nano Banana(나노 바나나)Nemotron 3 Nano Omni (네모트론 3 나노 옴니)Nemotron OCR v2 (네모트론 OCR v2)o1(OpenAI 추론 모델)o3 (오쓰리)Phi (파이)Privacy Filter(프라이버시 필터)Qwen (큐원)큐웬 3.5(Qwen 3.5)Qwen3 (큐원3)Qwen3-14B (큐원3 14B)Qwen3-14B-GGUF (큐원3 14B GGUF)Qwen3-30B-A3B (큐웬3 30B A3B)Qwen3.5-122B-A10B (122B MoE 대체형)Qwen3.5-27B (큐웬3.5-27B)Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled (쿠엔3.5-27B 클로드 4.6 오퍼스 리즈닝 디스틸드)Qwen3.5-35B-A3B (큐원 3.5-35B-A3B)Qwen3.5-9B (큐원 3.5-9B)Qwen3.5-9B BF16 (큐원 3.5-9B BF16)Qwen3.6 (큐원 3.6)Qwen3.6-27B (큐원 3.6-27B)Qwen3.6 27B FP8 (큐원 3.6 27B FP8)Qwen3.6-35B-A3B (큐원 3.6-35B-A3B)Sora (소라)Stable Diffusion(스테이블 디퓨전)DeepSeek V2.5 (딥시크 V2.5)DeepSeek V3.2 (딥시크 V3.2)V3.2-Speciale (딥시크 V3.2-Speciale)V4-Flash (딥시크 V4-Flash)V4 Pro (딥시크 V4 프로)Veo (비오)Whisper (위스퍼)

24GB GPU(24GB VRAM 카드)A3B (활성 파라미터 3B 표기)A4B(활성 파라미터 4B)A4B MoE(A4B 전문가 혼합 표기)A4B NVFP4(A4B 엔브이FP4)AI Agent (AI 에이전트)Google Cloud Agent Gateway (에이전트 게이트웨이)Agent Identity(에이전트 신원)Agent Observability(에이전트 관측성)AI Mode (AI 모드)Alignment(정렬)안드로이드(Android)Anthropic(앤트로픽)API (애플리케이션 프로그래밍 인터페이스)Apple Silicon (애플 실리콘)Attention (어텐션)AWS Bedrock(AWS 베드록)Bedrock(베드록)BF16 (브레인 플로팅 포인트 16)BF16 KV (BF16 키-값 캐시)Blackwell (NVIDIA GPU 아키텍처)BrowseComp(브라우즈컴프)chat-latest (챗 레이티스트)ChatGPT Instant (챗지피티 인스턴트)CLI(명령줄 인터페이스)Cloud (클라우드)Coding Agent(코딩 에이전트)Context(컨텍스트)Context Window(컨텍스트 윈도우)CUDA(쿠다)CUDA 12.9(쿠다 12.9)dataset(데이터셋)Deep Research (딥 리서치)Developer Tools(개발자 도구)DFlash (디플래시)Diffusion Model(확산 모델)E2B (이투비)E4B (이포비)Embedding (임베딩)Enterprise(엔터프라이즈)Enterprise AI(엔터프라이즈 AI)F1 96(에프원 96 표기)F32 (32비트 부동소수점)File Search(파일 검색)FIM completion(중간 채우기 완성)Flash(플래시)FP16 (반정밀도 부동소수점)FP4 (4비트 부동소수점 포맷)FP4 Indexer(FP4 인덱서)FP8 (8비트 부동소수점 포맷)FP8 E4M3(8비트 E4M3 포맷)FP8 KV (FP8 키-값 캐시)FP8 양자화 가중치 FP8 Tensor Core(FP8 텐서 코어)Gated DeltaNet(게이티드 델타넷)GDDR7(그래픽 DRAM 7세대)GDDR7 ECC(오류 수정 GDDR7 메모리)Gemini Intelligence (제미니 인텔리전스)GPQA Diamond (지피큐에이 다이아몬드)GPT (생성형 사전학습 트랜스포머)GPU (그래픽 처리 장치)GPU VRAM(GPU 전용 비디오 메모리)GUI(그래픽 사용자 인터페이스)Hallucination (환각)HTTP API(HTTP 호출 인터페이스)Hugging Face Hub(허깅 페이스 허브)HumanEval(휴먼이밸)IDE (통합 개발 환경)Image Generation(이미지 생성)Inference (추론)Instant(인스턴트)INT4 (4비트 정수 정밀도)INT8 (8비트 정수 정밀도)K2.6 (키미 K2.6 줄임말)KV Cache (KV 캐시)Language Model (언어 모델)Linux(리눅스)LiveCodeBench(라이브코드벤치)LLM (거대 언어 모델)Local LLM (로컬 LLM)Long Context (긴 문맥)M5 Max(M5 맥스)M5 Max 64GB(M5 맥스 64GB)Mac(맥)Managed Agents(관리형 에이전트)Mega MoE(메가 MoE)Memory(메모리)Mixture of Experts(전문가 혼합)MMLU(엠엠엘유)MMLU Pro(엠엠엘유 프로)모델 Multimodal AI(멀티모달 AI)Mythos (마이토스)Nano Omni (나노 옴니)Nemotron(네모트론)NL2Repo 39.8(엔엘투레포 39.8)Nous Research (누스 리서치)NVFP4 (NVIDIA FP4 포맷)NVIDIA GPU(엔비디아 GPU)NVLink(엔비디아 GPU 인터커넥트)OAuth(권한 위임)OCR (광학 문자 인식)On-device AI(온디바이스)Open-weight(오픈 웨이트)openai-agents>=0.14.0(오픈AI 에이전트 SDK 0.14.0 이상)OpenAI-compatible(OpenAI 호환)p95(95번째 백분위 지연시간)Personal Intelligence(퍼스널 인텔리전스)PrivateLink(프라이빗링크)Project Glasswing (프로젝트 글래스윙)PyPI (파이썬 패키지 인덱스)Python (파이썬)Q8 KV (Q8 키-값 캐시)Qwen3.6-35B-A3B Benchmarks (큐웬3.6 벤치마크)RAM (시스템 메모리)Reasoning Model (추론 모델)reasoning content(추론 내용)Reasoning Model (추론 모델)RTX PRO (엔비디아 전문가용 GPU 계열)SaaS(서비스형 소프트웨어)Search (검색)Small Language Model(소형 언어 모델)SWE-bench(깃허브 이슈 해결 벤치마크)SWE-Bench Pro(소프트웨어 엔지니어링 에이전트 벤치마크)SWE-bench Verified (스위벤치 베리파이드)SWE Multilingual(다국어 소프트웨어 엔지니어링 벤치마크 표기)SWE-Pro(에스더블유이 프로 표기)SwiGLU(스위글루)Tensor Core(텐서 코어)Terminal-Bench (터미널 벤치)Terminal-Bench 2.0(터미널 벤치 2.0)Thinking (씽킹)tok/s(초당 토큰)Token (토큰)Token Plan(토큰 플랜)TPU(텐서 처리 장치)Transformer (트랜스포머)Trusted Access (신뢰 기반 접근)TypeScript(타입스크립트)Vertex AI (버텍스 AI)VIBE-Pro(바이브 프로)Video Generation(영상 생성)Vision-Language Model (비전-언어 모델)VRAM(비디오 메모리)Model Weights(웨이트)Windows(윈도우)Word(워드 문서)Xiaomi MiMo(샤오미 미모)YaRN (야른)

한 줄 정의

Alibaba Qwen은 Alibaba 쪽 Qwen 모델 계열을 회사 이름까지 붙여 부르는 표현이야. 한 모델 ID가 아니라 Qwen3, Qwen3-14B, Qwen3-30B-A3B, Model Studio API 같은 여러 층위를 같이 가리킬 수 있어. 그래서 이 말을 보면 먼저 “벤더”, “모델 계열”, “개별 체크포인트”, “실행 경로”를 나눠 읽어야 해.

자주 생기는 오해는 이 말을 최신 모델 하나로 줄이는 거야. Qwen3만 봐도 0.6B부터 32B까지의 dense 모델과 30B-A3B, 235B-A22B 같은 MoE 모델이 같이 있어. 같은 계열이어도 14B는 dense 14.8B 텍스트 모델이고, 30B-A3B는 전체 30B급 가중치 안에서 토큰당 3B 안팎 경로를 켜는 MoE 모델이야.

이 모델로 무엇을 할 수 있나

이 계열은 세 갈래로 나눠 보면 읽기 쉬워.

작업: 텍스트 생성, 코드 보조, 문서 요약, 번역, 도구 호출 전후 응답 생성, Agentic Coding 실험에 붙일 수 있어.
자체 서버: Qwen3 공식 안내는 vLLM과 SGLang으로 OpenAI 호환 엔드포인트를 띄우는 경로를 보여 줘.
로컬 실행: Ollama, LM Studio, llama.cpp, KTransformers 같은 경로가 공식 안내에 같이 나와.

예를 들어 사내 문서 요약이나 코드 설명을 직접 서버에서 돌리고 싶으면 14B 같은 dense 모델이나 공식 GGUF 배포가 첫 비교 대상이야. 14B 카드는 14.8B total, 13.2B non-embedding, 40 layers, GQA 40 Q heads / 8 KV heads를 적고, GGUF 카드는 q4_K_M, q5_0, q5_K_M, q6_K, q8_0 양자화 경로를 따로 보여 줘. “모델 이름은 같은데 왜 파일과 속도가 다르지” 싶을 때는 원본 가중치와 양자화 배포를 갈라 읽으면 돼.

또 다른 사용 장면은 thinking mode와 non-thinking mode를 나눠 쓰는 거야. Qwen3 문서는 enable_thinking=True와 enable_thinking=False, 그리고 /think와 /no_think 전환을 설명해. 복잡한 코드 변경 이유를 길게 따져야 할 때와 빠른 분류 응답이 필요할 때를 같은 모델 계열 안에서 나눠 볼 수 있다는 뜻이야. 대신 reasoning 출력이 로그에 남는지, 제품 화면에 노출되는지까지 운영 정책으로 정해 둬야 해.

왜 중요한가

이 표현이 중요한 이유는 오픈 웨이트와 클라우드 API 문맥이 한 브랜드 아래 같이 나오기 때문이야. Apache 2.0 공개 가중치를 내려받아 직접 돌리는 판단과, Model Studio API를 붙이는 판단은 비용 구조가 완전히 달라.

직접 서빙: GPU, 양자화, KV 캐시, 컨텍스트 길이, 배포 운영이 비용을 만든다.
Model Studio: Alibaba Cloud 문서 기준 Qwen API는 OpenAI 호환 방식이나 DashScope 방식으로 호출할 수 있고, 입력·출력 토큰 과금과 배치 호출·context caching 할인 조건을 따로 본다.
데이터 정책: Model Studio privacy notice는 직접 API 호출에서는 대화 데이터를 저장하지 않고 비식별 호출 상태만 기록한다고 설명해. Assistant API는 conversation history를 보관하므로 같은 API 계열이라도 기록 정책이 달라.

특히 이 계열은 이름 안에 메모리 착시가 들어가기 쉬워. 14B는 비교적 곧장 dense 모델 크기로 읽을 수 있지만, A3B는 전체 모델 크기가 아니라 토큰당 활성 경로를 말해. 30B-A3B를 3B급 노트북 모델처럼 기대하면 틀리고, 14B를 MoE처럼 일부 expert만 켜지는 모델로 읽어도 틀려. 큰 계열 이름을 보면 이 구분부터 잡아야 실제 서빙 비용이 보여.

긴 문맥도 같은 방식으로 나눠 읽어. 14B 원본 카드와 GGUF 카드는 32,768 native 토큰과 YaRN 사용 시 131,072 tokens 검증을 나눠 적어. 블로그나 표에서 128K처럼 보이는 숫자를 만나면 native context, YaRN factor, 런타임 지원, 짧은 입력에서의 품질 손실을 따로 재면 돼.

주의해서 볼 점

Alibaba Qwen은 개별 모델명이 아니야. 글에서 이 표현이 보이면 Qwen3-14B, Qwen3-30B-A3B, Qwen3.6-27B처럼 실제 모델 ID를 먼저 찾아야 해.
Qwen3-14B와 Qwen3-14B-GGUF는 같은 모델 계열을 다른 배포 형식으로 쓰는 경로야. 원본 safetensors 결과와 양자화 GGUF 결과를 완전히 같은 운영 조건으로 보면 안 돼.
Qwen3-14B 출처들은 텍스트 생성 모델로 설명해. 이미지·비디오 입력이 필요하면 멀티모달 Qwen 모델인지 별도 카드에서 확인해.
오픈 웨이트가 곧 무료 운영은 아니야. 로컬 LLM은 토큰 가격표 대신 GPU, 전력, 배포, 보안, 모니터링 비용을 직접 맡는 방식에 가깝다.
thinking mode는 품질 스위치이면서 출력 정책이야. <think> 블록, reasoning 분리, 로그 보관, 사용자 노출 여부를 정하지 않고 켜면 제품 쪽에서 더 큰 문제가 생길 수 있어.

같이 보면 좋은 모델

Qwen: Alibaba Qwen이라는 표현이 상위 Qwen 브랜드를 말하는지, 특정 모델 ID를 말하는지 가르는 기준점이야.
Qwen3: dense 모델과 MoE 모델이 한 세대 안에 같이 들어오는 구조를 확인할 때 바로 이어져.
Qwen3-14B: Alibaba Qwen 계열을 14.8B dense 텍스트 모델과 공식 GGUF 배포로 직접 시험할 때 보는 구체 모델이야.
Qwen3-30B-A3B: A3B 표기가 전체 가중치와 활성 파라미터를 어떻게 나눠 읽게 하는지 비교하기 좋아.

이 항목을 참조하는 위키

📰 관련 기사 (1)

Qwen 3.5-9B, 12GB VRAM에서 80 토큰/초 + 128K 컨텍스트 돌아가2026-05-10🔥98점 · 출처 4

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-06 KST

검증 생성: AI + 편집 검토 · 2026-05-06 상태: 통과

통과 원문 대조 검증 출처 3

공식 Qwen3 글과 14B 원본·GGUF 카드에서 Alibaba Qwen을 단일 모델명이 아니라 Qwen 계열을 벤더와 함께 부르는 표현으로 좁혔어.

독자 문제 대조: Alibaba Qwen이라는 말을 보면 회사명, 모델 계열, 개별 모델 ID, API 경로가 섞이기 쉬워서 첫 문단에서 바로 분리했어.
Qwen3 공식 글은 Qwen3를 Qwen 계열의 새 세대로 소개하고 dense 모델과 MoE 모델을 함께 묶어 설명해.
14B 원본 카드는 모델 ID, Text Generation 태그, Transformers·Safetensors 배포, apache-2.0 라이선스를 확인하게 해줘.
14B GGUF 카드는 같은 모델을 llama.cpp·Ollama 같은 로컬 실행 형식으로 따로 배포한다는 점을 확인시켜 줘.

통과 교차 검증 검증 출처 6

공식 블로그, 원본 모델 카드, GGUF 카드, Alibaba Cloud API·요금·개인정보 문서를 맞대서 실행 경로와 비용 판단을 분리했어.

비교 기준: Qwen3 블로그는 세대와 라인업, 14B 원본 카드는 모델 스펙, 14B GGUF 카드는 로컬 양자화 배포를 맡아.
공식 글은 vLLM과 SGLang으로 OpenAI 호환 API를 만들 수 있고, Ollama·LM Studio·llama.cpp·KTransformers 로컬 경로도 같이 안내해.
원본 카드와 GGUF 카드는 둘 다 14B 모델을 텍스트 생성용 causal language model로 설명해서, 이 페이지도 텍스트 모델 계열 중심으로 범위를 잡았어.
Alibaba Cloud Qwen API 문서는 Model Studio에서 OpenAI compatible protocol과 DashScope protocol 둘 다로 Qwen API를 호출할 수 있다고 적어.
Model invocation pricing 문서는 Model Studio API가 입력 토큰과 출력 토큰 단위로 과금되며, 배치 호출과 context caching 할인 조건이 따로 붙는다고 설명해.
Privacy notice는 직접 API 호출에서는 대화 데이터를 저장하지 않고 desensitized call status만 기록하지만, Assistant API는 conversation history를 보관한다고 나눠 적어.

통과 수치 검증 검증 출처 5

라인업 수, 파라미터, 컨텍스트 길이, 양자화 형식, API 과금 단위를 공식 출처별로 나눠 확인했어.

Qwen3 공개 글은 원 공개 라인업을 0.6B, 1.7B, 4B, 8B, 14B, 32B dense 모델과 30B-A3B, 235B-A22B MoE 모델로 제시해.
14B 모델 카드는 14.8B total, 13.2B non-embedding, 40 layers, GQA 40 Q heads / 8 KV heads로 적어.
원본 카드와 GGUF 카드는 32,768 native context와 YaRN 사용 시 131,072 tokens 검증을 함께 적어.
GGUF 배포 카드는 q4_K_M, q5_0, q5_K_M, q6_K, q8_0 양자화 형식을 따로 표시해.
Model Studio pricing 문서는 Qwen 텍스트 생성 API를 입력 토큰과 출력 토큰 기준으로 과금하고, 0~32K·32K~128K 같은 입력 길이 구간을 모델별로 나눠 적어.

통과 비판 검토 검증 출처 3

Alibaba Qwen을 최신 모델 하나, 무료 운영 경로, 또는 모든 Qwen 모델의 같은 실행 조건으로 읽는 오해를 막았어.

이 표현은 벤더 이름을 붙인 모델 계열 표현이라서 14B, 30B-A3B, 3.6 같은 개별 모델 ID와 구분해서 읽어.
Apache 2.0 공개 가중치가 있더라도 자체 서빙 비용, 토큰 과금, 데이터 처리 정책은 배포 경로마다 달라져.
Qwen3-14B는 텍스트 모델이므로 이미지·비디오 입력까지 자동으로 기대하지 않게 제한했어.
A3B 표기는 활성 파라미터 힌트이지 전체 가중치 저장량이 3B급이라는 보장이 아니라고 본문에 남겼어.

출처: Hugging Face - Qwen/Qwen3-14B , Qwen3: Think Deeper, Act Faster , Hugging Face - Qwen/Qwen3-14B-GGUF , Alibaba Cloud Model Studio - Qwen API reference , Alibaba Cloud Model Studio - Model invocation pricing , Alibaba Cloud Model Studio - Privacy notice