무슨 일이 일어났나
구글이 Gemma 4를 공개하면서 E2B와 E4B를 같이 내놨어. 이 엣지 모델은 클라우드 API 대신 기기 안에서 직접 추론하도록 줄인 버전이야. Google Blog는 2026-04-02 공개와 Apache 2.0 라이선스를, DeepMind는 E2B=phone·E4B=edge 포지션을 확인해.
왜 이런가
Hugging Face는 E2B/E4B의 PLE 구조와 llama.cpp, MLX 지원을 설명해. Ollama 노출은 Hugging Face가 아니라 DeepMind 다운로드 섹션에서 보여. 다만 “더 큰 모델에 가까운 이해력”은 아직 독립 벤치마크 합의로 굳은 결론까진 아니야.
어떤 의미인가
공식 LiteRT 모델 카드 기준으로 E2B는 일부 환경에서 1.5GB 안팎까지 내려가지만, E4B는 3.65GB 모델 크기와 3GB대 실측이 먼저 확인돼. 그래서 문서 분류·회의록 요약 같은 로컬 보조 작업 자리에선 써볼 만하지만, 긴 코드 생성이나 높은 정확도 검증이 필요한 일은 아직 더 큰 모델이나 외부 API가 낫겠어.