무슨 일이 일어났나
Z.ai(이전 Zhipu AI, Tsinghua spinoff)가 GLM-5.1을 MIT 라이선스로 Hugging Face에 공개했어. 754B 파라미터 MoE 아키텍처에 200,000 토큰 컨텍스트 윈도우, SWE-Bench Pro 58.4점으로 GPT-5.4(57.7), Claude Opus 4.6(57.3)을 모두 넘었어. 오픈웨이트 모델이 코딩 벤치마크에서 폐쇄형을 처음 앞선 사례야. Hugging Face에서 가중치를 바로 받을 수 있고, 상업 사용·수정·재배포 모두 무료야.
왜 이게 일어났나
지난 1년간 오픈소스 코딩 모델은 ‘GPT/Claude의 7~8할 성능’ 선에서 정체돼 있었거든. 그런데 Z.ai는 ‘plan → execute → test → fix → optimize’ 다섯 단계를 자율로 도는 에이전트 학습 파이프라인에 집중했어. The Decoder 보도에 따르면 GLM-5.1이 Linux 데스크톱 환경을 처음부터 빌드하는 작업을 655번의 iteration으로 8시간 동안 사람 개입 없이 끝낸 사례까지 있어. 단순 코드 생성을 넘어 agentic coding 자체를 학습 목표로 잡은 결과야.
어떤 의미인가
이 모델이 갖는 실무적 무게는 세 가지야:
- 자체 호스팅 옵션이 처음으로 진짜 매력적 — Claude/GPT급 성능을 사내 GPU에서 돌릴 수 있다는 게 보안 민감 회사에는 결정적
- MIT 라이선스 = 상업 사용 무제한 — 사내 코딩 도구로 wrapping해서 팔아도 되고, 학습 데이터로도 쓸 수 있어
- 에이전트 학습 패러다임의 검증 — 단순 코드 생성에서 다단계 자율 에이전트로 학습 목표가 옮겨가는 흐름이 성능 향상으로 연결됨
코딩 에이전트 자체 호스팅을 검토 중이었던 팀이라면, ‘Claude/GPT급 성능을 사내 GPU에서 돌릴 수 있는’ 첫 후보로 평가 시작해볼 만해.
주의할 점
SWE-Bench Pro는 공개 벤치마크라 학습 데이터에 일부 유출됐을 가능성을 완전히 배제할 수 없어. 실무에서 GPT/Claude만큼 나오는지는 사내 자체 평가 셋으로 따로 확인해야 해. 그리고 754B MoE는 활성 파라미터가 작아도 전체 가중치를 메모리에 올려야 해서, 실제 자체 호스팅은 8×H100급 인프라가 필요해. 마지막으로 Z.ai는 중국 회사이고 1월에 홍콩 IPO를 마쳤어 — 데이터 거버넌스·컴플라이언스 측면은 별도 검토가 필요해.