한 줄 정의

Qwen3.6-35B-A3B Benchmarks (큐웬3.6 벤치마크)는 Alibaba Qwen 팀의 Qwen3.6-35B-A3B 점수를 코딩 에이전트 벤치마크 관점에서 읽는 해석 개념이야. 검색어 qwen3 6 35b a3b benchmarks로 들어왔다면, 핵심은 모델 이름보다 SWE-bench Verified 73.4, Terminal-Bench 2.0 51.5, SWE-Bench Pro 49.5를 어떤 조건에서 읽을지야.

이런 벤치마크는 모델이 실제 코드 저장소 이슈를 고치거나, 터미널에서 명령을 실행하고 오류를 복구하거나, 도구 호출을 이어 가는 능력을 숫자로 압축해 보여 줘. 다만 숫자는 후보 선별용이지, 네 저장소에서 같은 결과가 난다는 보장은 아니야.

이 모델은 35B 전체 파라미터 중 한 토큰을 처리할 때 3B 정도만 켜는 MoE 구조야. 그래서 “3B active”를 작은 로컬 모델처럼 읽으면 안 돼. 35B 가중치, 262,144 토큰 기본 컨텍스트, 이미지 인코더, 서빙 런타임을 한 묶음으로 잡으면 돼.

어떻게 작동하나

공식 표를 한 줄 순위표로 보지 말고, 평가가 묻는 일을 나눠서 읽으면 돼. 아래 숫자는 Hugging Face의 Qwen3.6-35B-A3B 모델 카드Qwen 공식 블로그를 기준으로 다시 대조했어.

지표이 모델 점수비교값읽는 법
SWE-bench Verified73.4Gemma 4 31B 52.0, Qwen3.5-27B 75.0검증된 실제 GitHub 이슈 해결률에 가까워. 단, 이번 표는 내부 에이전트 실행틀 조건을 써.
SWE-Bench Pro49.5Gemma 4 31B 35.7더 어려운 저장소 이슈 해결 능력을 봐. 공개 실행 도구와 같은 조건인지 따로 맞춰야 해.
터미널 작업 평가51.5Gemma 4 31B 42.9명령 실행, 오류 복구, 긴 단계 추적을 봐. 제한 시간과 CPU/RAM 조건이 점수 해석을 바꿔.
MCPMark37.0Gemma 4 31B 18.1MCP 도구 호출이나 함수 호출이 많은 코딩 루프에서 참고할 만해.

예를 들어 사내 리포지토리 이슈 10개, 테스트 명령 3개, 도구 호출 JSON 스키마 2개를 고정해 놓고 Qwen3.6-35B-A3B와 기존 모델을 나란히 돌려볼 수 있어. 공개 점수는 후보를 고르는 데 쓰고, 실제 도입은 같은 프롬프트와 같은 제한 시간, 같은 테스트 통과 기준으로 다시 재는 편이 맞아.

왜 중요한가

이 항목이 중요한 이유는 73.4라는 숫자가 꽤 강한 신호이면서도, 그대로 운영 결론은 아니기 때문이야. 공식 모델 카드는 SWE-bench 계열을 내부 에이전트 실행틀, 200K context, temp=1.0, top_p=0.95 조건으로 돌렸다고 적어. 같은 이름의 평가라도 공개 실행 도구, 다른 에이전트 실행 환경, 다른 제한 시간으로 돌리면 점수가 움직일 수 있어.

또 Qwen3.6-35B-A3B가 모든 표에서 절대 1위라는 뜻도 아니야. 같은 코딩 에이전트 표에서 Qwen3.5-27B는 Verified 75.0으로 더 높고, Qwen3.6-35B-A3B는 터미널 작업과 MCPMark 쪽에서 더 강하게 보여. 그러니까 이 모델은 “코딩 전반 최강”보다 “오픈 웨이트 전문가 혼합 모델이 도구를 호출하는 코딩 에이전트 작업을 어디까지 끌어올렸나”를 볼 때 더 정확해.

실무에서는 비용도 같이 갈려. Hugging Face 가중치Apache-2.0 조건으로 받을 수 있지만, 262K 컨텍스트를 유지하려면 vLLM, SGLang, KTransformers 같은 런타임GPU 메모리 예산도 계산하게 돼. 오픈 웨이트라서 무료라는 말보다, API 비용을 직접 운영하는 서버 비용으로 바꾼다는 말이 더 가까워.

실무 활용

  • Qwen3.6-35B-A3B: 모델 자체의 구조, 접근 경로, 오픈 웨이트 조건을 볼 때 기준이 돼. 이 페이지는 그중 benchmark 해석만 좁혀서 봐.
  • Qwen3-30B-A3B: 텍스트 전용 A3B 모델과 멀티모달 Qwen3.6 모델을 비교할 때 좋아. 둘 다 A3B처럼 보이지만 입력 범위와 context 설계가 달라.
  • Qwen3.6: 27B dense, 35B-A3B, API 상품을 한 계열 안에서 구분할 때 필요해. 같은 Qwen3.6 이름이어도 배포 책임이 달라져.
  • Gemma 4: OfficeChai와 HF 표가 자주 놓는 비교축이야. 31B dense와 35B total / 3B active MoE를 나란히 보면 active parameter 해석이 덜 헷갈려.

주의해서 볼 점

Claude Opus 4.7을 이겼다는 식의 2차 기사 문구는 그대로 쓰지 않는 게 좋아. 공식 HF 언어 성능표의 직접 비교축은 Qwen3.5, Gemma4, Qwen3.6이고, 시각-언어 표에는 Claude Sonnet 4.5가 일부 비교 대상으로 들어가. 모델 이름과 성능표를 섞으면 어떤 점수에서 무엇을 이겼는지 흐려져.

이미지 점수는 별도로 떼어 두면 돼. RealWorldQA 85.3, RefCOCO 92.0, ODInW13 50.8 같은 수치는 멀티모달 강점을 보여 주지만, 이 페이지의 도입 판단은 코딩 에이전트 쪽에 둬. UI 화면 이미지 이해, 문서 이미지 처리, 한국어 주석이 섞인 저장소 작업은 공개 표와 다른 입력 분포라서 별도 평가가 필요해.

마지막으로, Terminal-Bench 2.0 51.5는 모델 단독 지능보다 터미널 환경에서 명령을 실행하고 복구하는 흐름을 본 점수야. 사내에서는 실패한 테스트를 읽고, 파일을 고치고, 다시 명령을 돌리는 작은 루프부터 재면 돼. 숫자는 시작점이고, 네 저장소에서 끝까지 통과하는지가 결론이야.