한 줄 정의
E4B는 Gemma 문서군에서 쓰는 E 표기 중 하나야. 먼저 헷갈리기 쉬운 점부터 풀면, “전체 파라미터가 정확히 4B인 모델”이라는 뜻은 아니야. 실제 추론 때는 4B급 부담으로 읽어야 해. Gemma 4에서는 작은 멀티모달 모델 라인업을 가리키는 이름으로도 같이 쓰여.
어떻게 작동하나
여기서 E는 effective의 약자야. Google AI for Developers의 Gemma 4 모델 카드는 E4B를 4.5B effective라고 적어. 임베딩까지 합친 전체 규모는 8B야. 컨텍스트는 128K고, 텍스트·이미지·오디오 입력도 다룰 수 있어.
이 차이는 PLE(Per-Layer Embeddings) 때문에 생겨. 레이어마다 큰 lookup용 임베딩 테이블을 붙이기 때문에, 문서가 전체 웨이트 크기와 실제 운영 부담을 나눠 보여 주는 거야.
왜 중요한가
릴리스 노트나 모델 카드에서 E4B가 보이면 대개 “엣지 기기나 로컬 보조 작업에 맞춘 급”이라는 신호야. Google DeepMind는 E2B와 E4B를 폰·모바일·IoT 쪽으로 묶어 설명해. 26B A4B와 31B는 워크스테이션 쪽으로 나눠 설명해.
그래서 운영 판단은 꽤 직접적이야. 로컬 음성 보조, 문서 OCR, 화면 이해, 오프라인 요약처럼 작은 기기 안에서 처리하고 싶은 일을 먼저 떠올리면 돼.
주의해서 볼 점
E4B라고 해도 메모리는 따로 확인해야 해.
- 메모리: LiteRT-LM 배포 카드의 모델 파일은 3.65GB야. Android CPU 메모리는 3283MB, Raspberry Pi 5 CPU 메모리는 3069MB로 나와. 같은 E4B라도 런타임과 하드웨어에 따라 부담이 달라져.
- 표기: E4B를 26B A4B의 A4B와 같은 숫자 체계로 읽으면 헷갈려. E는 effective고 A는 active야. 서로 따로 읽어야 해.
- 판단: AIME 2026 벤치마크 no tools 기준으로 E4B는 42.5%, 26B A4B는 88.3%, 31B는 89.2%야. 복잡한 다단계 추론 모델이 필요한 작업은 큰 모델 쪽이 더 맞아.