무슨 일이 일어났나

G4-MeroMero 26B-A4B uncensored-heretic GGUF가 5월 23일 Hugging Face에 올라왔어. google/gemma-4-26B-A4B-it를 베이스로 Heretic v1.2.0 도구를 써서 안전 거부 로직을 제거한 어블레이션 모델이야. 100개 테스트 프롬프트 기준 거부 비율이 99에서 12로 떨어졌고, KL divergence 0.0152, MMLU 정확도 81.16%(원본 82.01%)로 일반 능력은 거의 유지됐어. 라이선스는 베이스와 동일한 Apache 2.0이고 Q4_K_M 기준 17.3GB로 단일 GPU에서 돌릴 수 있어.

어떻게 작동하나

어블레이션은 모델을 다시 학습시키는 게 아니라, 거부 행동을 만들어내는 특정 방향 벡터를 가중치에서 빼내는 방식이야. Heretic은 거부 프롬프트와 일반 프롬프트의 활성화 차이를 계산해서, MoE 모델이라면 128개 expert의 down_proj 슬라이스에 같은 투영을 적용해 거부 회로만 약화시켜. 베이스 모델의 지식과 추론 능력은 거의 그대로 남아. 이 모델은 추가로 ApocalypseParty/G4-26B-SFT-6와 50/50 선형 병합을 거쳤고, 35M 토큰·15M 학습 가능 파라미터 규모의 SFT를 Axolotl로 돌렸어.

어떤 의미인가

오픈 모델 가중치가 공개되는 시점부터 안전장치는 사실상 옵션이 돼. KLD 0.0152라는 수치는 능력 손실이 0.85%p MMLU 하락 수준이라는 뜻이고, 이건 어블레이션이 실서비스 수준 품질로 가능하다는 신호야. 자체 호스팅 환경에서 콘텐츠 정책을 직접 설계하려는 팀에게는 선택지지만, 동시에 거부 회로가 제거된 모델을 어디서 누가 어떻게 돌릴지에 대한 책임 문제도 같이 생겨. 이미 TrevorS의 어블레이션 연구나 mradermacher 빌드 등 여러 변종이 같이 풀리고 있는 상황이야.

주의해서 볼 점

MMLU 같은 일반 벤치마크는 거의 떨어지지 않아도, safety-specific 평가모델 카드에 없어. 거부를 낮추면 그만큼 유해 응답 가능성이 같이 올라간다는 건 분리해서 볼 문제야. 그리고 어블레이션 모델은 원작자 안전 정책 밖에서 동작하기 때문에, 운영자가 별도 가드레일을 어디까지 책임질지 미리 정해야 해. 실서비스에 넣을지 검토한다면 일반 능력 수치보다 safety eval과 책임 모델을 먼저 보는 게 안전해.