무슨 일이 있었나

Qwen3.5-27B 위에 Claude Opus 4.6의 추론 패턴을 증류한 모델이 HuggingFace에서 월 56만 다운로드를 찍고 있어. Jackrong이라는 개발자가 만든 건데, Claude Opus 4.6의 Chain-of-Thought 추론 로그 3000건을 SFT(Supervised Fine-Tuning)로 학습시킨 거야. Claude Opus 4.6의 추론 패턴을 증류한 모델 태그 안에서 단계별로 문제를 쪼개는 구조적 사고 패턴이 그대로 옮겨진 셈이거든.

왜 중요할까

실용적인 숫자를 보면, Q4_K_M 양자화 기준 VRAM 16.5GB면 돌아가고, RTX 3090에서 29-35 tok/s 속도가 나와. 컨텍스트 윈도우는 262K 토큰이야. 코딩 에이전트(Claude Code, OpenCode) 환경에서 9분 넘게 자율 작동한 테스트 결과도 있다. 원래 Qwen3.5 양자화 모델들이 도구 호출에서 불안정한 경우가 많았는데, 이 27B 증류 버전만 안정적이라는 게 커뮤니티 평가야.

앞으로 볼 점

다만 짚어둘 게 있어. Anthropic의 서비스 약관상 모델 출력을 학습 데이터로 쓰는 게 허용되는지는 아직 불분명하고, 공식 벤치마크(MMLU, HumanEval 등) 결과도 없어. Apache 2.0 라이선스라 자유롭게 쓸 수 있지만, 프로덕션에 넣기 전에 내 유스케이스에서 직접 테스트해보는 게 맞아.