한 줄 정의

E2B는 Gemma 문서군에서 쓰는 E 표기야. 초심자 기준으로 풀면 “이 모델을 실제 기기에 올렸을 때 체감 부담을 어느 정도로 봐야 하냐”에 답하려는 숫자라고 보면 돼.

설명

이 표기가 중요한 이유는 모델 숫자가 하나만 있지 않기 때문이야. 어떤 문서에는 total parameters가 나오고, 어떤 문서에는 활성 파라미터가 나오고, Gemma 3n과 Gemma 4 small dense 문서처럼 효율 배포를 강조하는 문서에는 E 표기가 따로 붙어. 그래서 E2B를 보면 “파라미터 총량이 얼마냐”보다 “실제 inference 비용과 memory 적재를 어떤 감각으로 설명하려는가”를 먼저 읽어야 해.

Gemma 3n overview는 E2B/E4B를 everyday devices 문맥과 함께 설명하고, 같은 문서에서 effective memory load 1.91B와 32K token context를 같이 적어 둬. 후속 세대 카드는 Dense section에서 E2B/E4B/31B를, Mixture of Experts section에서 26B A4B를 따로 제시해 같은 카드 안에서도 효율 표기와 A 표기를 분리해 읽게 만들어. 여기서 E는 체감 배포 부담 축이고, A는 실행 시 켜지는 파라미터 축이라 질문 자체가 다르다는 점이 핵심이야.

표기읽는 질문예시
total parameters모델이 전체로 얼마나 큰가총 파라미터 수
활성 파라미터실행 시 실제로 켜지는 양이 얼마나 되는가MoE section의 26B A4B
효율 표기효율 배포 기준으로 체감 부담이 어느 정도인가Gemma 3n과 Dense section의 E2B, E4B

왜 중요한가

뉴스나 릴리스 노트에서 E2B/E4B 같은 표기를 보면, 그건 대개 on-device나 경량 배포 가능성을 같이 보라는 신호야. 그래서 E2B를 이해하면 “작다”는 표현이 정말 파라미터 총량을 뜻하는지, 아니면 효율 배포 감각을 뜻하는지 구분하기 쉬워져.

실무에서도 바로 영향이 있어. 모바일이나 엣지 기기 배포를 검토할 때는 숫자 하나만 보지 않고 입력 형태, 컨텍스트 길이, runtime 구성, 메모리 예산, quantization 여부를 같이 봐야 하거든. 배포 계획을 세울 때는 E2B를 “이 문서가 효율 배포 쪽 이야기를 하고 있다”는 신호로 사용하면 돼.

주의할 점

가장 흔한 오해는 E2B를 활성 파라미터와 같은 뜻으로 읽는 거야. 같은 후속 카드26B A4B는 실행 시 켜지는 양을 보여 주는 표기이고, E2B는 Gemma 3n 문맥에서 효율 배포 감각을 전달하는 표기야. 둘 다 숫자지만 같은 질문에 답하는 라벨이 아니야.

또 E2B를 quantization 같은 최적화 기법 이름으로 읽으면 안 돼. E2B는 문서가 붙인 해석용 숫자이고, quantization은 실제 저장 형식과 계산 방식을 바꾸는 기법이야. 마찬가지로 E2B가 붙어 있다고 해서 곧바로 모든 기기에서 배포가 쉽다는 보장도 아니야.

관련 용어

  • Gemma 4: 작은 dense 모델과 다른 구조를 비교할 때 가장 바로 이어지는 문맥이야.
  • Mixture of Experts: 26B A4B처럼 A 표기가 왜 따로 보이는지 이해할 때 필요해.
  • Inference: E 표기가 실제 추론 비용 이야기로 어떻게 이어지는지 볼 때 같이 읽기 좋아.
  • Token: 32K 같은 컨텍스트 길이 숫자가 별도 축이라는 점을 분리해 준다.
  • On-device: E2B가 왜 작은 기기 배포 이야기와 자주 같이 나오는지 연결해 준다.
  • Quantization: 숫자 표기와 최적화 기법을 섞어 읽지 않게 도와준다.