이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

Qwen3.5-35B-A3B, 35B MoE에서 3B만 켜고 SWE-bench 69.2%를 찍었어

알리바바 Qwen 팀이 Qwen3.5-35B-A3B를 Hugging Face에 풀었어. 256 expert MoE 중 8+1만 활성화해서 35B 중 3B만 도는 구조야. SWE-bench Verified 69.2%, MMLU-Pro 85.3, 컨텍스트는 native 262k에 YaRN으로 1M까지 늘려. Apache 2.0이고 비전 인코더가 같이 들어가.

무슨 일이 일어났나

알리바바 Qwen 팀이 Qwen3.5-35B-A3B를 풀었어. A3B는 활성 파라미터 3B라는 뜻이야. 전체는 35B인데 256개 expert 중 8개 routed + 1개 shared만 켜져서, 추론할 때 실제 도는 건 3B 분량이야. 비전 인코더가 같이 들어가서 이미지·비디오까지 받고, 라이선스는 Apache 2.0이야.

벤치는 SWE-bench Verified 69.2%, MMLU-Pro 85.3, GPQA Diamond 84.2, CodeForces ELO 2028이야. 컨텍스트는 native 262,144 토큰에 YaRN을 켜면 1M 토큰까지 늘려.

왜 이게 일어났나

작년 Claude Sonnet 4 시절부터 셀프호스트 진영의 가장 큰 벽은 “30B급은 코딩이 약하고, 70B+는 GPU가 비싸”였어. MoE는 이 둘 사이를 비집고 들어가는 답이고, DeepSeek V3·V4이 671B/3B 활성으로 먼저 증명했어.

Qwen3.5-35B-A3B는 그 패턴을 단일 GPU급으로 끌어내린 형태야. 명세를 보면 이래:

Total params: 35B (전체 expert 합계)
Activated: 3B (routed 8 + shared 1)
Hidden layers: 40개, Gated DeltaNet + Gated Attention 혼합
Context: 262,144 native, YaRN 1.01M
언어: 201개

Gated DeltaNet은 선형 attention이라 long context에서 메모리 증가가 완만해. 1M 컨텍스트가 그냥 마케팅이 아니라 실제로 돌릴 수 있게 설계된 구조라는 게 이번 라인의 의미야.

어떤 의미인가

활성 파라미터 3B에 속으면 안 돼. 전체 35B를 VRAM에 로드해야 라우팅이 동작하니까, BF16이면 70GB, Q4_K_M으로 양자화해야 24GB 한 장에 겨우 들어가. RTX 4090이나 A6000 한 장으로 돌릴지 결정하는 사람한테는 의미가 큰 라인이야 — 30B-A3B에서 35B-A3B로 바뀌면서 SWE-bench가 60%대 후반으로 의미 있게 올라온 부분이 이번 차이점이야.

비교할 때 같이 봐야 할 라인:

Claude Opus 4.7: SWE-bench Verified 76% 추정, $5/$25 per 1M 토큰
GPT-5.5: SWE-bench Verified 71% (Standard 기준), $5/$30
Qwen3.5-35B-A3B: SWE-bench 69.2%, 셀프호스트 시 토큰당 비용 0

코딩 워크로드가 무겁고 코드가 외부로 못 나가는 환경이면 셀프호스트 라인이 처음으로 의미 있는 레벨에 들어왔어.

다음 수순

Hugging Face 모델 카드에 vLLM·SGLang·KTransformers 배포 스니펫이 다 있어. vllm serve Qwen/Qwen3.5-35B-A3B --tensor-parallel-size 8 --max-model-len 262144 한 줄이면 떠. 사내 PoC면 본인 도메인 데이터로 LoRA를 얹어서 같은 활성 비율로 측정해보고, Claude Opus 4.7 API 비용과 비교 표를 만들어. 단일 사용자 처리량이 200 tok/s가 안 나오면 동시 요청 부하 테스트도 같이 돌려야 해.

태그

#qwen#moe#llm#open-weights#hugging-face

포맷 v2 가이드 news 3.1.2

팩트 체크

통과 · 2026-04-29 KST

검증 생성: AI + 편집 검토 · 2026-04-29 상태: 통과

통과 원문 대조

Hugging Face 모델 카드 벤치 표·아키텍처 명세 일치 확인.

Total 35B / Activated 3B (256 experts, 8 routed + 1 shared)
Native 262,144 토큰, YaRN으로 1,010,000 토큰까지 확장
License: Apache 2.0, 201개 언어 지원

통과 교차 검증 검증 출처 3

공식 블로그·GitHub README·HF 모델 카드 동일 수치 확인.

Qwen 공식 블로그: Qwen3.5 시리즈 발표 (2026년 2월)
GitHub 리포: 추론 코드와 벤치 재현 스크립트
Hugging Face 모델 카드: 256 expert / 8 routed + 1 shared 명세 확인

통과 수치 검증

벤치 점수를 모델 카드 표와 직접 비교.

MMLU-Pro 85.3, GPQA Diamond 84.2, IFEval 91.9
SWE-bench Verified 69.2, CodeForces ELO 2028
MMMU 81.4, VideoMME(자막 포함) 86.6

통과 비판 검토

Qwen 자체 평가라는 점과 활성 파라미터 통계의 함정을 짚어둠.

벤치는 Qwen 팀 자체 측정 — Anthropic·OpenAI 독립 재현 필요
활성 3B는 추론당 평균 — 전체 35B를 VRAM에 로드해야 동작
MoE 라우팅이 코드·수학에 편향됐을 가능성, 일반 대화 도메인 비교 부족

SWE-bench 69.2는 Qwen3-Coder-30B 대비 향상 폭이 발표문에 명시 안 됨
비전 인코더가 기본 탑재됐지만 텍스트-only 추론에서도 VRAM 점유는 동일

출처: Hugging Face — Qwen3.5-35B-A3B model card , Qwen Team — Qwen3.5 release blog , GitHub — QwenLM/Qwen3.5