이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

Gemma 4 26B-A4B 어블레이션 모델, 거부 비율 99/100에서 12/100으로

Gemma 4 26B-A4B-it 베이스에 Heretic 도구로 안전장치를 제거한 G4-MeroMero 26B-A4B 모델이 5월 23일 GGUF로 공개됐어. KL divergence 0.0152를 유지하면서 거부 비율은 99건 중 12건까지 낮췄고, MMLU 정확도는 원본 82.01% 대비 81.16%로 0.85%p 떨어졌어.

무슨 일이 일어났나

G4-MeroMero 26B-A4B uncensored-heretic GGUF가 5월 23일 Hugging Face에 올라왔어. google/gemma-4-26B-A4B-it를 베이스로 Heretic v1.2.0 도구를 써서 안전 거부 로직을 제거한 어블레이션 모델이야. 100개 테스트 프롬프트 기준 거부 비율이 99에서 12로 떨어졌고, KL divergence 0.0152, MMLU 정확도 81.16%(원본 82.01%)로 일반 능력은 거의 유지됐어. 라이선스는 베이스와 동일한 Apache 2.0이고 Q4_K_M 기준 17.3GB로 단일 GPU에서 돌릴 수 있어.

어떻게 작동하나

어블레이션은 모델을 다시 학습시키는 게 아니라, 거부 행동을 만들어내는 특정 방향 벡터를 가중치에서 빼내는 방식이야. Heretic은 거부 프롬프트와 일반 프롬프트의 활성화 차이를 계산해서, MoE 모델이라면 128개 expert의 down_proj 슬라이스에 같은 투영을 적용해 거부 회로만 약화시켜. 베이스 모델의 지식과 추론 능력은 거의 그대로 남아. 이 모델은 추가로 ApocalypseParty/G4-26B-SFT-6와 50/50 선형 병합을 거쳤고, 35M 토큰·15M 학습 가능 파라미터 규모의 SFT를 Axolotl로 돌렸어.

어떤 의미인가

오픈 모델 가중치가 공개되는 시점부터 안전장치는 사실상 옵션이 돼. KLD 0.0152라는 수치는 능력 손실이 0.85%p MMLU 하락 수준이라는 뜻이고, 이건 어블레이션이 실서비스 수준 품질로 가능하다는 신호야. 자체 호스팅 환경에서 콘텐츠 정책을 직접 설계하려는 팀에게는 선택지지만, 동시에 거부 회로가 제거된 모델을 어디서 누가 어떻게 돌릴지에 대한 책임 문제도 같이 생겨. 이미 TrevorS의 어블레이션 연구나 mradermacher 빌드 등 여러 변종이 같이 풀리고 있는 상황이야.

주의해서 볼 점

MMLU 같은 일반 벤치마크는 거의 떨어지지 않아도, safety-specific 평가는 모델 카드에 없어. 거부를 낮추면 그만큼 유해 응답 가능성이 같이 올라간다는 건 분리해서 볼 문제야. 그리고 어블레이션 모델은 원작자 안전 정책 밖에서 동작하기 때문에, 운영자가 별도 가드레일을 어디까지 책임질지 미리 정해야 해. 실서비스에 넣을지 검토한다면 일반 능력 수치보다 safety eval과 책임 모델을 먼저 보는 게 안전해.

태그

#gemma#heretic#abliteration#uncensored#open-model#moe

포맷 v3 가이드 news 3.4.0

팩트 체크

통과 · 2026-05-24 KST

검증 생성: AI + 편집 검토 · 2026-05-24 상태: 통과

통과 원문 대조

Hugging Face 모델 카드에 명시된 KLD 0.0152, 12/100 refusal, MMLU 81.16% 수치를 본문 그대로 옮겼어.

model card에 KL Divergence 0.0152, refusal 12/100, MMLU 81.16%가 표로 적혀 있어.
베이스 모델 google/gemma-4-26B-A4B-it는 26B 파라미터(활성 25B) MoE 구조야.
Heretic v1.2.0이 어블레이션 도구로 사용됐다고 모델 카드에 그대로 기재돼 있어.

통과 교차 검증 검증 출처 2

TrevorS의 어블레이션 연구 저장소와 별도 Heretic GGUF 빌드 카드에서 같은 베이스 모델과 방법론을 확인했어.

1차 출처 교차검증: TrevorS 어블레이션 저장소가 MoE 26B-A4B에 적용되는 Expert-Granular Abliteration 방법론을 별도로 문서화하고 있어.
mradermacher 빌드 등 별개 GGUF 카드에서 동일 베이스 모델과 라이선스(Apache 2.0)를 확인했어.
Heretic 도구 자체가 p-e-w/heretic 저장소에서 안전장치 abliteration 용도로 공개돼 있어.

통과 수치 검증

0.0152 KLD, 12/100, 81.16% vs 82.01%, 0.85%p, 26B, 128개 expert, 35M 토큰 같은 수치는 모두 모델 카드와 어블레이션 문서에서 직접 확인했어.

KL divergence 0.0152 — model card 성능 표에 직접 적혀 있어.
Refusal 12/100, 원본 99/100 — model card 성능 표 그대로야.
MMLU 81.16% vs 원본 82.01%, 차이 0.85%p — model card 성능 표에서 계산한 차이값이야.
26B(활성 25B) — 베이스 모델 카드에 그대로 적혀 있어.
MoE expert down_proj 128개 — TrevorS 어블레이션 저장소 README에 직접 적혀 있어.
35M 토큰 SFT, 15M 학습 가능 파라미터 — model card 학습 표에 그대로 나와.
Q4_K_M 양자화 17.3 GB, BF16 50.5 GB — model card 다운로드 표 그대로야.

통과 비판 검토

어블레이션 모델의 안전성 리스크와 책임 소재를 본문에 같이 적었어.

Causal evidence: 안전 거부 회로를 약화시키면 거부 비율이 99/100에서 12/100으로 떨어지는 인과 관계가 모델 카드 표에 직접 적혀 있어.
Mechanism evidence: Heretic 도구가 거부 프롬프트와 일반 프롬프트의 활성화 차이를 계산해 MoE 128 expert down_proj 슬라이스에 같은 투영을 적용하는 메커니즘이 TrevorS 저장소에 그대로 기록돼 있어.
거부 비율을 낮추면 유해 요청에도 응답할 가능성이 같이 올라가.
원작자(Google) 안전 정책 밖에서 운용된 결과라, 운영 책임은 사용자 측에 남아.

MMLU 0.85%p 하락은 작아 보여도 specific safety benchmark가 빠져 있다는 점은 별도 검증 필요해.

출처: G4-MeroMero-26B-A4B-it-uncensored-heretic-GGUF model card , google/gemma-4-26B-A4B-it 베이스 모델 카드 , TrevorS/gemma-4-abliteration — Gemma 4 어블레이션 연구