무슨 일이 일어났나

Z.ai(이전 Zhipu AI, Tsinghua spinoff)가 GLM-5.1을 MIT 라이선스로 Hugging Face에 공개했어. 754B 파라미터 MoE 아키텍처에 200,000 토큰 컨텍스트 윈도우, SWE-Bench Pro 58.4점으로 GPT-5.4(57.7), Claude Opus 4.6(57.3)을 모두 넘었어. 오픈웨이트 모델이 코딩 벤치마크에서 폐쇄형을 처음 앞선 사례야. Hugging Face에서 가중치를 바로 받을 수 있고, 상업 사용·수정·재배포 모두 무료야.

왜 이게 일어났나

지난 1년간 오픈소스 코딩 모델은 ‘GPT/Claude의 7~8할 성능’ 선에서 정체돼 있었거든. 그런데 Z.ai는 ‘plan → execute → test → fix → optimize’ 다섯 단계를 자율로 도는 에이전트 학습 파이프라인에 집중했어. The Decoder 보도에 따르면 GLM-5.1Linux 데스크톱 환경을 처음부터 빌드하는 작업을 655번의 iteration으로 8시간 동안 사람 개입 없이 끝낸 사례까지 있어. 단순 코드 생성을 넘어 agentic coding 자체를 학습 목표로 잡은 결과야.

어떤 의미인가

모델이 갖는 실무적 무게는 세 가지야:

  • 자체 호스팅 옵션이 처음으로 진짜 매력적Claude/GPT급 성능을 사내 GPU에서 돌릴 수 있다는 게 보안 민감 회사에는 결정적
  • MIT 라이선스 = 상업 사용 무제한 — 사내 코딩 도구로 wrapping해서 팔아도 되고, 학습 데이터로도 쓸 수 있어
  • 에이전트 학습 패러다임의 검증 — 단순 코드 생성에서 다단계 자율 에이전트학습 목표가 옮겨가는 흐름이 성능 향상으로 연결됨

코딩 에이전트 자체 호스팅을 검토 중이었던 팀이라면, ‘Claude/GPT급 성능을 사내 GPU에서 돌릴 수 있는’ 첫 후보로 평가 시작해볼 만해.

주의할 점

SWE-Bench Pro는 공개 벤치마크라 학습 데이터에 일부 유출됐을 가능성을 완전히 배제할 수 없어. 실무에서 GPT/Claude만큼 나오는지는 사내 자체 평가 셋으로 따로 확인해야 해. 그리고 754B MoE는 활성 파라미터가 작아도 전체 가중치메모리에 올려야 해서, 실제 자체 호스팅은 8×H100인프라가 필요해. 마지막으로 Z.ai는 중국 회사이고 1월에 홍콩 IPO를 마쳤어 — 데이터 거버넌스·컴플라이언스 측면은 별도 검토가 필요해.

💬 비판적 시각

  • SWE-Bench Pro는 공개 벤치마크라 학습 데이터 유출 가능성을 배제할 수 없어. 사내 자체 평가 셋으로 재확인 필요해.
  • 754B MoE는 활성 파라미터가 작아도 메모리에는 전체가 올라가야 해서 8×H100인프라 필요해.
  • Z.ai는 중국 회사라 데이터 거버넌스·컴플라이언스 측면 별도 검토가 필요해.