무슨 일이 일어났나

오픈소스 LLM 커뮤니티가 Qwen3.5-35B-A3B 모델에서 안전 정렬(refusal) 레이어를 제거한 heretic v2 Native MTP Preserved 버전을 Hugging Face에 풀었어. 35B 파라미터 Mixture-of-Experts 모델이고, 한 번 추론할 때 실제로 도는 건 약 3B 정도야. 핵심은 모델에 박혀 있던 785개 Multi-Token Prediction 토큰을 그대로 보존했다는 점이야 — MTP는 한 번에 여러 토큰을 동시에 예측해 추론 속도를 끌어올리는 장치인데, 보통 abliteration(검열 제거)을 거치면서 망가지기 쉬워.

왜 이게 일어났나

공식 QwenAlibaba가 안전 가드를 박아서 배포해. 그런데 로컬 환경에서 자기 데이터로 튜닝하거나 실험하려는 진영은 그 가드가 거추장스럽다고 느껴. 그래서 가중치를 직접 손봐서 “거부 반응”을 죽이는 abliteration 기법이 굳어졌어. 이번 버전은 거기에 더해 MTP 토큰까지 살린 게 차별점이야. 배포 포맷도 한 번에 4종 — Safetensors(원본), GGUF(llama.cpp용), NVFP4(NVIDIA Blackwell 4bit), GPTQ-Int4(범용 4bit) — 풀어놔서 RTX 3090부터 H100까지 거의 모든 환경에서 바로 돌릴 수 있어.

어떤 의미인가

상용 API(GPT, Claude)만 보다가 이 흐름을 모르고 있었다면, 오픈소스 진영이 이미 이렇게 빠르게 모델을 자기 손에 맞게 가공해서 쓰고 있다는 걸 알 필요가 있어. 특히 MoE와 MTP 조합은 앞으로 1~2년 LLM 추론 효율을 좌우할 키워드거든. 다만 검열 제거된 모델은 실서비스에 그대로 붙이기엔 위험해 — 컴플라이언스 리스크 없는 로컬 실험·연구용으로 쓰는 게 맞아.

주의해서 볼 점

이건 Alibaba/Qwen 공식 릴리스가 아니라 llmfan46이라는 개인 업로더의 변형이야. 가중치 처리 방식이 정확히 어떤 abliteration 알고리즘을 썼는지는 모델 카드에 자세히 안 적혀 있어서, 실제로 어디까지 안전 가드가 빠졌는지는 직접 돌려봐야 알 수 있어. 기업 환경에서 도입할 거면 라이선스와 함께 가중치 출처 검증을 꼭 거쳐야 해.