무슨 일이 일어났나

Qwen 팀이 Qwen-Scope를 공식 출시했어. Qwen 3.5 패밀리(2B Dense부터 35B MoE까지)의 residual stream 내부 특성을 매핑한 Sparse Autoencoder(SAE) 모음이야. r/LocalLLaMA에서 빠르게 화제가 됐어.

SAE가 뭐길래

SAE는 모델 내부를 사전처럼 만들어주는 도구라고 보면 돼. 거대한 행렬 연산 안에서 모델이 실제로 어떤 개념을 계산하는지를, 사람이 읽을 수 있는 단위 특성으로 풀어놓는 거야. 기존엔 AnthropicClaude 3 Sonnet에 적용한 사례가 유명했는데, 오픈소스 LLM 패밀리 전체에 SAE가 동시 공개된 건 이번이 처음이야.

어떤 의미인가

연구자나 평가하는 입장에서 가장 큰 변화가 있어. 모델이 잘못된 답을 낼 때 “어떤 개념이 활성화돼서 그렇게 됐는지”를 추적하기가 훨씬 쉬워졌거든. 안전 연구, 편향 디버깅, 프롬프트 엔지니어링까지 영향이 있어. 일반 사용자에게는 당장 체감되는 기능이 아니지만, 모델 동작을 이해하는 도구가 오픈소스 진영에서도 표준화되는 흐름이라는 게 진짜 신호야.

주의할 점

SAE 분석은 GPU 메모리와 연산이 만만치 않아. 35B MoE에 SAE를 돌리려면 사실상 연구실 환경이 필요해. 호기심으로 들여다볼 수는 있지만, 실무 도구로 바로 끌어다 쓸 단계는 아직 아니야.